2026년 글로벌 오픈소스 LLM 총정리 — 메타 라마부터 중국 AI까지

오픈소스 LLM 시장이 2년 전과 완전히 달라졌습니다. 예전엔 메타 Llama가 유일한 선택지처럼 여겨졌는데, 지금은 선택지가 너무 많아서 오히려 뭘 써야 할지 모를 지경입니다. 그 중심에 중국 AI 업체들의 약진이 있습니다.

이 글에서는 2026년 3월 기준으로 전 세계에서 주목받는 오픈소스 LLM들을 정리했습니다.

Meta — Llama 오픈소스 LLM의 시작

먼저 숫자로 보는 현황

중국에서 2025년까지 공개된 LLM만 1,500종 이상
글로벌 오픈소스 LLM 사용량 중 중국 모델 점유율: 약 30% (2024년 말 1.2%에서 급등)
GPT-4급 성능 API 가격: 2023년 백만 토큰당 $30 → 2026년 $1 이하

이 세 가지 수치만 봐도 지금 무슨 일이 일어나고 있는지 대략 감이 옵니다.

서방 주요 오픈소스 LLM

Meta — Llama 4 시리즈 (2025년 4월)

오픈소스 LLM의 기준점 역할을 해온 Llama가 4세대에서 MoE(Mixture-of-Experts) 구조로 전환했습니다. 같은 성능을 더 적은 활성 파라미터로 달성하는 방향입니다.

모델	활성 파라미터	전체 파라미터	컨텍스트
Llama 4 Scout	17B (16 전문가)	109B	1,000만 토큰
Llama 4 Maverick	17B (128 전문가)	400B	100만 토큰
Llama 4 Behemoth	288B (16 전문가)	2조	학습 중

Scout은 컨텍스트 윈도우가 무려 1,000만 토큰입니다. 긴 문서 처리나 코드베이스 분석에서 압도적인 강점을 가집니다. Maverick은 GPT-4o와 Gemini 2.0 Flash를 멀티모달 벤치마크에서 능가하며, DeepSeek V3와 추론/코딩에서 비슷한 성능을 절반 이하의 활성 파라미터로 달성했습니다.

Mistral AI — Mistral 3 시리즈 (2025년 12월)

프랑스 스타트업으로 Apache 2.0 라이선스를 고수하는 것으로 유명합니다.

Mistral Large 3: MoE 구조, 활성 41B / 전체 675B. LMArena 오픈소스 비추론 모델 2위(전체 6위)
Ministral 시리즈: 3B, 8B, 14B — 엣지·로컬 배포용
Devstral Small 2 (24B): 코딩 특화, Qwen 3 Coder Flash를 능가한다고 주장

Google — Gemma 3 시리즈

Gemini 아키텍처에서 증류한 소형 오픈 모델 시리즈. 가장 큰 특징은 4B 이상 모델이 네이티브 멀티모달을 지원한다는 점입니다. 비슷한 크기의 경쟁 모델 대부분이 텍스트만 처리하는 것과 다릅니다.

크기: 1B, 4B, 12B, 27B
컨텍스트: 128K 토큰, 140개 이상 언어 지원
Gemma 3 27B은 소비자용 RTX 3090에서 로컬 실행 가능

Microsoft — Phi-4 (14B)

"크기가 전부가 아니다"를 증명하는 모델. GPT-4로 생성한 고품질 합성 데이터로 학습해 14B 파라미터로 70B급 모델 다수를 능가합니다.

GSM8K 수학 정답률 93.7%, MATH 73.5%
함수 호출(Function Calling) 지원
단점: 주로 영어 특화, 한국어·중국어는 파인튜닝 필요

Falcon 3 시리즈 (UAE 기술혁신연구소, 2024년 12월)

UAE 아부다비 정부 기관인 TII가 만든 오픈소스 모델입니다.

크기: 1B, 3B, 7B, 10B
14조 토큰 학습, 32K 컨텍스트
Falcon 3-10B는 출시 당시 HuggingFace 리더보드 13B 이하 1위

중국 오픈소스 LLM — 지금 가장 뜨거운 전선

중국 AI 업체들의 오픈소스 전략은 서방과 다릅니다. 최고 성능 모델을 오픈소스로 공개하며 생태계 선점에 나서고 있습니다. 비용은 놀라울 정도로 낮습니다.

인공지능 데이터센터 — 중국 AI 인프라의 상징

DeepSeek — 가장 충격적인 등장

2025년 1월, DeepSeek-R1이 공개되면서 AI 업계에 파장이 일었습니다. OpenAI o1과 동등한 추론 성능을 H800 GPU 2,000장, 55일, 약 600만 달러의 훈련 비용으로 달성했다는 주장 때문이었습니다. GPT-4 훈련 비용 추정치의 1/18 수준입니다.

DeepSeek의 모델 타임라인:

모델	출시	전체/활성 파라미터	핵심
DeepSeek-V3	2024년 12월	671B / 37B	MoE, 14.8T 토큰 학습
DeepSeek-R1	2025년 1월	671B / 37B	강화학습 기반 추론 특화
DeepSeek-V3-0324	2025년 3월	671B / 37B	강화학습 포스트 트레이닝 개선
DeepSeek-V3.1	2025년 8월	V3+R1 하이브리드	V3와 R1의 강점 결합
DeepSeek-V3.2	2025년 12월	685B	에이전트 워크플로우, MIT 라이선스

R1 주요 벤치마크:

MATH-500: 97.3%
Codeforces Elo: 2,029 (OpenAI-o1과 동등)
MMLU: 88.5%

API 가격 면에서도 혁신적입니다. DeepSeek R1은 출시 당시 OpenAI o1 대비 27배 저렴했고, V3.2 기준으로는 경쟁 모델 대비 140배 이상 저렴합니다.

Alibaba Qwen — 현재 가장 넓은 오픈소스 LLM 패밀리

알리바바의 Qwen 시리즈는 현재 전 세계에서 가장 다양하고 광범위한 오픈소스 LLM 패밀리 중 하나입니다.

시리즈	출시	파라미터	특징
Qwen 2.5	2024년 하반기	0.5B~72B	다국어, 코딩 강점
Qwen 3	2025년 4월	0.6B~235B MoE	하이브리드 추론, 36T 토큰, 119개 언어
Qwen 3.5	2026년 2월	397B / 활성 17B	201개 언어, 256K 컨텍스트, Apache 2.0
Qwen 3.5 Small	2026년 3월	0.8B~9B	온디바이스, 엣지 특화

Qwen 3.5-397B의 특징이 눈에 띕니다. 전체 397B이지만 실제 활성 파라미터는 17B뿐이며, 전작 대비 60% 저렴한 추론 비용에 256K 컨텍스트를 지원합니다.

Qwen 3.5-397B 벤치마크:

MMLU-Pro: 87.8%
AIME 2026 수학: 91.3%
LiveCodeBench 코딩: 83.6%
GPQA Diamond 과학: 88.4%
SWE-bench (실제 소프트웨어 엔지니어링): 76.4%

Zhipu AI — GLM-5 (2026년 2월)

칭화대학교 배경의 스타트업 지푸(智谱)AI가 공개한 GLM-5는 오픈소스 모델 리더보드 최상위를 노리는 모델입니다.

파라미터: 744B MoE (활성 44B)
컨텍스트: 205K 토큰
라이선스: MIT
학습 인프라: 화웨이 Ascend 910B 칩 100,000장 + MindSpore 프레임워크

이 마지막 항목이 흥미롭습니다. 엔비디아 GPU 없이 화웨이 Ascend로 대규모 훈련을 완료한 사례입니다. 제재 우회가 아닌 기술 자립의 실증 사례라 할 수 있습니다.

GLM-5 벤치마크:

SWE-bench: 77.8%
BrowseComp: 75.9%
Chatbot Arena: 1,454점 (리더보드 최상위권)
API 가격: Claude Opus 4.6 대비 6배 저렴

Moonshot AI — Kimi K2.5 (2026년 1월)

월지암면(月之暗面)이 운영하는 Moonshot AI의 Kimi 시리즈는 에이전트 성능에서 두각을 나타냅니다.

파라미터: 1T MoE (활성 32B)
특징: 최대 100개 서브에이전트를 자율 생성·조율하는 스웜 시스템
비전 인코더 MoonViT(400M) 추가로 멀티모달 지원
HumanEval: 99.0 (현재까지 측정된 모델 중 최고점)
AIME 2025 수학: 96.1
훈련 비용: 약 460만 달러

MiniMax — MiniMax-Text-01

파라미터: 전체 456B, 활성 45.9B
컨텍스트 윈도우: 400만 토큰 — 공개 당시 업계 최장
Lightning Attention + Softmax Attention + MoE 하이브리드 아키텍처
최신 M2.5(230B)가 2026년 리더보드 S-Tier 상위권 진입

Shanghai AI Lab — InternLM 시리즈

상하이 인공지능 연구소의 InternLM3는 수학 추론(InternLM-Math), 비전-언어(InternLM-XComposer) 등 특화 모델 라인업으로 학술 커뮤니티에서 강한 존재감을 유지하고 있습니다.

2026년 주요 벤치마크 비교

모델	MMLU-Pro	GPQA Diamond	HumanEval	SWE-bench	Chatbot Arena
GLM-5 (744B)	~87+	86.0	~98	77.8	1,454
Kimi K2.5 (1T)	87.1	87.6	99.0	—	1,447
Qwen3.5-397B	87.8	88.4	—	76.4	—
Llama 4 Maverick	—	—	—	—	멀티모달 최강
Mistral Large 3	—	—	—	—	오픈소스 6위

중국 AI가 보여주는 것들

중국 모델들이 주목받는 이유는 단순히 "저렴해서"가 아닙니다. 기술적으로도 독특한 접근이 있습니다.

1. 효율 극대화 — MoE의 진화 DeepSeek V3.2는 685B 중 37B만 활성화합니다(5.4%). Qwen 3.5는 397B 중 17B(4.3%). 이는 더 많은 GPU를 쓰는 게 아니라 더 효율적인 알고리즘으로 경쟁하겠다는 전략입니다.

2. 화웨이 칩으로의 훈련 GLM-5는 Ascend 910B 칩 10만 장으로 훈련됐습니다. 엔비디아 제재가 오히려 중국 자체 AI 인프라 생태계를 빠르게 성숙시키는 역설적 결과를 낳고 있습니다.

3. 비용 혁신이 가져온 파급 효과 GPT-4급 성능 API 가격이 2023년 백만 토큰당 $30에서 2026년 $1 이하로 떨어졌습니다. 이 가격 하락의 주역은 DeepSeek와 Qwen입니다. 서방 업체들도 가격을 따라 내릴 수밖에 없는 상황입니다.

정리

오픈소스 LLM 시장은 지금 이 순간에도 빠르게 바뀌고 있습니다. 2026년 현재 단 하나의 "최고" 모델은 없습니다. 용도에 따라 달라집니다.

로컬 실행이 필요하다면: Gemma 3 27B, Phi-4 14B
비용 효율이 중요하다면: DeepSeek V3.2, Qwen 3.5
추론·수학 특화: DeepSeek R1, Kimi K2.5
멀티모달 오픈소스: Llama 4 Scout/Maverick, Gemma 3 4B+
에이전트 워크플로우: Kimi K2.5, GLM-5

한 가지 확실한 건, 오픈소스 LLM의 수준이 1~2년 전 독점 모델을 따라잡았다는 사실입니다. 그리고 그 추진력의 상당 부분이 중국에서 오고 있습니다.

이 포스트는 TechInsights, SemiAnalysis, TrendForce, Tom's Hardware, Hugging Face 공식 문서 등 공개 자료를 바탕으로 작성되었습니다. (2026년 3월 25일)