블로그로 돌아가기
테크추천

LLM 양자화(Quantization)란? 쉽게 설명합니다

AI 모델을 쓰다 보면 자주 보이는 "양자화", "4bit", "Q4_K_M" 같은 용어들. 도대체 무슨 뜻인지 사진 압축에 비유해 쉽게 풀어드립니다.

2026년 3월 27일3분 읽기

로컬 AI를 써보거나 Ollama, LM Studio 같은 도구를 쓰다 보면 이런 표현을 마주칩니다.

"Q4_K_M", "INT8", "FP16", "4-bit 양자화"

뭔가 중요한 것 같긴 한데, 설명이 어렵죠. 오늘은 이 양자화(Quantization) 를 정말 쉽게 설명해 드립니다.


핵심 비유: 사진 화질 압축

스마트폰으로 찍은 사진을 카카오톡에 보내면 화질이 떨어지죠? 파일 크기를 줄이기 위해 압축한 겁니다.

양자화도 정확히 같은 원리입니다.

AI 모델 안에는 수십억~수천억 개의 숫자(가중치, weight)가 들어 있습니다. 이 숫자들이 AI의 "지식"입니다.

저장 방식숫자 하나의 크기예시
FP32 (원본)32비트3.14159265358979...
FP16 (절반 정밀도)16비트3.1416
INT8 (8비트 양자화)8비트3
INT4 (4비트 양자화)4비트3 (더 거칠게)

양자화 = 숫자를 더 거칠게 표현해서 파일 크기를 줄이는 것


왜 중요한가요?

예를 들어 Llama 3 70B 모델이 있다고 합시다. 파라미터(숫자)가 700억 개입니다.

  • FP32 원본: 700억 × 4바이트 = 약 280GB → 일반 PC 불가
  • FP16: 700억 × 2바이트 = 약 140GB → 여전히 어려움
  • INT4 양자화: 700억 × 0.5바이트 = 약 35GB → 고급 PC에서 가능!

양자화 덕분에 일반 사용자도 강력한 AI 모델을 자기 컴퓨터에서 돌릴 수 있게 됩니다.


Q4_K_M 이 뭔가요?

Ollama나 GGUF 파일에서 자주 보이는 표기입니다.

Q4_K_M
│ │ └── M: Medium (중간 품질 균형)
│ └──── K: K-quant 방식 (더 정교한 양자화 알고리즘)
└────── 4: 4비트로 저장
표기설명추천 상황
Q8_08비트, 원본에 가장 가까움VRAM 여유가 많을 때
Q4_K_M4비트, 품질/크기 균형 최적대부분의 경우 이걸 추천
Q3_K_S3비트, 매우 작음VRAM이 매우 부족할 때
Q2_K2비트, 최소 크기성능 저하 큼, 비추천

실제로 품질 차이가 크나요?

솔직히 말하면, 대부분의 일상적인 대화에서는 거의 차이가 없습니다.

  • 글 쓰기, 번역, 요약 → Q4_K_M으로 충분
  • 복잡한 수학 추론, 코딩 → Q6 이상 권장
  • 학술 연구 → FP16 권장

마치 유튜브를 볼 때 4K가 아닌 1080p로 봐도 대부분의 영상을 충분히 즐길 수 있는 것처럼요.


한 줄 정리

양자화 = AI 모델의 화질 압축. 파일은 작아지고, 성능은 조금 줄어들지만, 내 PC에서 돌릴 수 있게 된다.

AI를 클라우드가 아닌 내 컴퓨터에서 직접 쓰고 싶다면, Q4_K_M 버전을 찾아보세요. 대부분의 경우 충분합니다.


관련 글: 내 컴퓨터에서 돌아가는 최고의 라마(Llama) 모델은?

새 글을 이메일로 받아보세요 ✉️

새 글이 올라오면 바로 알려드릴게요