LLM 양자화(Quantization)란? 쉽게 설명합니다

로컬 AI를 써보거나 Ollama, LM Studio 같은 도구를 쓰다 보면 이런 표현을 마주칩니다.

"Q4_K_M", "INT8", "FP16", "4-bit 양자화"

뭔가 중요한 것 같긴 한데, 설명이 어렵죠. 오늘은 이 양자화(Quantization) 를 정말 쉽게 설명해 드립니다.

핵심 비유: 사진 화질 압축

스마트폰으로 찍은 사진을 카카오톡에 보내면 화질이 떨어지죠? 파일 크기를 줄이기 위해 압축한 겁니다.

양자화도 정확히 같은 원리입니다.

AI 모델 안에는 수십억~수천억 개의 숫자(가중치, weight)가 들어 있습니다. 이 숫자들이 AI의 "지식"입니다.

양자화 = 숫자를 더 거칠게 표현해서 파일 크기를 줄이는 것

예를 들어 Llama 3 70B 모델이 있다고 합시다. 파라미터(숫자)가 700억 개입니다.

양자화 덕분에 일반 사용자도 강력한 AI 모델을 자기 컴퓨터에서 돌릴 수 있게 됩니다.

Ollama나 GGUF 파일에서 자주 보이는 표기입니다.

Q4_K_M
│ │ └── M: Medium (중간 품질 균형)
│ └──── K: K-quant 방식 (더 정교한 양자화 알고리즘)
└────── 4: 4비트로 저장

솔직히 말하면, 대부분의 일상적인 대화에서는 거의 차이가 없습니다.

마치 유튜브를 볼 때 4K가 아닌 1080p로 봐도 대부분의 영상을 충분히 즐길 수 있는 것처럼요.

양자화 = AI 모델의 화질 압축. 파일은 작아지고, 성능은 조금 줄어들지만, 내 PC에서 돌릴 수 있게 된다.

AI를 클라우드가 아닌 내 컴퓨터에서 직접 쓰고 싶다면, Q4_K_M 버전을 찾아보세요. 대부분의 경우 충분합니다.