2026년 글로벌 오픈소스 LLM 총정리 — 메타 라마부터 중국 AI까지
메타 Llama 4, DeepSeek, Qwen, GLM, Kimi 등 전 세계 주요 오픈소스 LLM의 현황과 스펙, 벤치마크를 한눈에 정리했습니다. 중국 AI 업체들의 약진이 두드러집니다.
오픈소스 LLM 시장이 2년 전과 완전히 달라졌습니다. 예전엔 메타 Llama가 유일한 선택지처럼 여겨졌는데, 지금은 선택지가 너무 많아서 오히려 뭘 써야 할지 모를 지경입니다. 그 중심에 중국 AI 업체들의 약진이 있습니다.
이 글에서는 2026년 3월 기준으로 전 세계에서 주목받는 오픈소스 LLM들을 정리했습니다.
![]()
먼저 숫자로 보는 현황
- 중국에서 2025년까지 공개된 LLM만 1,500종 이상
- 글로벌 오픈소스 LLM 사용량 중 중국 모델 점유율: 약 30% (2024년 말 1.2%에서 급등)
- GPT-4급 성능 API 가격: 2023년 백만 토큰당 $30 → 2026년 $1 이하
이 세 가지 수치만 봐도 지금 무슨 일이 일어나고 있는지 대략 감이 옵니다.
서방 주요 오픈소스 LLM
Meta — Llama 4 시리즈 (2025년 4월)
오픈소스 LLM의 기준점 역할을 해온 Llama가 4세대에서 MoE(Mixture-of-Experts) 구조로 전환했습니다. 같은 성능을 더 적은 활성 파라미터로 달성하는 방향입니다.
| 모델 | 활성 파라미터 | 전체 파라미터 | 컨텍스트 |
|---|---|---|---|
| Llama 4 Scout | 17B (16 전문가) | 109B | 1,000만 토큰 |
| Llama 4 Maverick | 17B (128 전문가) | 400B | 100만 토큰 |
| Llama 4 Behemoth | 288B (16 전문가) | 2조 | 학습 중 |
Scout은 컨텍스트 윈도우가 무려 1,000만 토큰입니다. 긴 문서 처리나 코드베이스 분석에서 압도적인 강점을 가집니다. Maverick은 GPT-4o와 Gemini 2.0 Flash를 멀티모달 벤치마크에서 능가하며, DeepSeek V3와 추론/코딩에서 비슷한 성능을 절반 이하의 활성 파라미터로 달성했습니다.
Mistral AI — Mistral 3 시리즈 (2025년 12월)
프랑스 스타트업으로 Apache 2.0 라이선스를 고수하는 것으로 유명합니다.
- Mistral Large 3: MoE 구조, 활성 41B / 전체 675B. LMArena 오픈소스 비추론 모델 2위(전체 6위)
- Ministral 시리즈: 3B, 8B, 14B — 엣지·로컬 배포용
- Devstral Small 2 (24B): 코딩 특화, Qwen 3 Coder Flash를 능가한다고 주장
Google — Gemma 3 시리즈
Gemini 아키텍처에서 증류한 소형 오픈 모델 시리즈. 가장 큰 특징은 4B 이상 모델이 네이티브 멀티모달을 지원한다는 점입니다. 비슷한 크기의 경쟁 모델 대부분이 텍스트만 처리하는 것과 다릅니다.
- 크기: 1B, 4B, 12B, 27B
- 컨텍스트: 128K 토큰, 140개 이상 언어 지원
- Gemma 3 27B은 소비자용 RTX 3090에서 로컬 실행 가능
Microsoft — Phi-4 (14B)
"크기가 전부가 아니다"를 증명하는 모델. GPT-4로 생성한 고품질 합성 데이터로 학습해 14B 파라미터로 70B급 모델 다수를 능가합니다.
- GSM8K 수학 정답률 93.7%, MATH 73.5%
- 함수 호출(Function Calling) 지원
- 단점: 주로 영어 특화, 한국어·중국어는 파인튜닝 필요
Falcon 3 시리즈 (UAE 기술혁신연구소, 2024년 12월)
UAE 아부다비 정부 기관인 TII가 만든 오픈소스 모델입니다.
- 크기: 1B, 3B, 7B, 10B
- 14조 토큰 학습, 32K 컨텍스트
- Falcon 3-10B는 출시 당시 HuggingFace 리더보드 13B 이하 1위
중국 오픈소스 LLM — 지금 가장 뜨거운 전선
중국 AI 업체들의 오픈소스 전략은 서방과 다릅니다. 최고 성능 모델을 오픈소스로 공개하며 생태계 선점에 나서고 있습니다. 비용은 놀라울 정도로 낮습니다.
![]()
DeepSeek — 가장 충격적인 등장
2025년 1월, DeepSeek-R1이 공개되면서 AI 업계에 파장이 일었습니다. OpenAI o1과 동등한 추론 성능을 H800 GPU 2,000장, 55일, 약 600만 달러의 훈련 비용으로 달성했다는 주장 때문이었습니다. GPT-4 훈련 비용 추정치의 1/18 수준입니다.
DeepSeek의 모델 타임라인:
| 모델 | 출시 | 전체/활성 파라미터 | 핵심 |
|---|---|---|---|
| DeepSeek-V3 | 2024년 12월 | 671B / 37B | MoE, 14.8T 토큰 학습 |
| DeepSeek-R1 | 2025년 1월 | 671B / 37B | 강화학습 기반 추론 특화 |
| DeepSeek-V3-0324 | 2025년 3월 | 671B / 37B | 강화학습 포스트 트레이닝 개선 |
| DeepSeek-V3.1 | 2025년 8월 | V3+R1 하이브리드 | V3와 R1의 강점 결합 |
| DeepSeek-V3.2 | 2025년 12월 | 685B | 에이전트 워크플로우, MIT 라이선스 |
R1 주요 벤치마크:
- MATH-500: 97.3%
- Codeforces Elo: 2,029 (OpenAI-o1과 동등)
- MMLU: 88.5%
API 가격 면에서도 혁신적입니다. DeepSeek R1은 출시 당시 OpenAI o1 대비 27배 저렴했고, V3.2 기준으로는 경쟁 모델 대비 140배 이상 저렴합니다.
Alibaba Qwen — 현재 가장 넓은 오픈소스 LLM 패밀리
알리바바의 Qwen 시리즈는 현재 전 세계에서 가장 다양하고 광범위한 오픈소스 LLM 패밀리 중 하나입니다.
| 시리즈 | 출시 | 파라미터 | 특징 |
|---|---|---|---|
| Qwen 2.5 | 2024년 하반기 | 0.5B~72B | 다국어, 코딩 강점 |
| Qwen 3 | 2025년 4월 | 0.6B~235B MoE | 하이브리드 추론, 36T 토큰, 119개 언어 |
| Qwen 3.5 | 2026년 2월 | 397B / 활성 17B | 201개 언어, 256K 컨텍스트, Apache 2.0 |
| Qwen 3.5 Small | 2026년 3월 | 0.8B~9B | 온디바이스, 엣지 특화 |
Qwen 3.5-397B의 특징이 눈에 띕니다. 전체 397B이지만 실제 활성 파라미터는 17B뿐이며, 전작 대비 60% 저렴한 추론 비용에 256K 컨텍스트를 지원합니다.
Qwen 3.5-397B 벤치마크:
- MMLU-Pro: 87.8%
- AIME 2026 수학: 91.3%
- LiveCodeBench 코딩: 83.6%
- GPQA Diamond 과학: 88.4%
- SWE-bench (실제 소프트웨어 엔지니어링): 76.4%
Zhipu AI — GLM-5 (2026년 2월)
칭화대학교 배경의 스타트업 지푸(智谱)AI가 공개한 GLM-5는 오픈소스 모델 리더보드 최상위를 노리는 모델입니다.
- 파라미터: 744B MoE (활성 44B)
- 컨텍스트: 205K 토큰
- 라이선스: MIT
- 학습 인프라: 화웨이 Ascend 910B 칩 100,000장 + MindSpore 프레임워크
이 마지막 항목이 흥미롭습니다. 엔비디아 GPU 없이 화웨이 Ascend로 대규모 훈련을 완료한 사례입니다. 제재 우회가 아닌 기술 자립의 실증 사례라 할 수 있습니다.
GLM-5 벤치마크:
- SWE-bench: 77.8%
- BrowseComp: 75.9%
- Chatbot Arena: 1,454점 (리더보드 최상위권)
- API 가격: Claude Opus 4.6 대비 6배 저렴
Moonshot AI — Kimi K2.5 (2026년 1월)
월지암면(月之暗面)이 운영하는 Moonshot AI의 Kimi 시리즈는 에이전트 성능에서 두각을 나타냅니다.
- 파라미터: 1T MoE (활성 32B)
- 특징: 최대 100개 서브에이전트를 자율 생성·조율하는 스웜 시스템
- 비전 인코더 MoonViT(400M) 추가로 멀티모달 지원
- HumanEval: 99.0 (현재까지 측정된 모델 중 최고점)
- AIME 2025 수학: 96.1
- 훈련 비용: 약 460만 달러
MiniMax — MiniMax-Text-01
- 파라미터: 전체 456B, 활성 45.9B
- 컨텍스트 윈도우: 400만 토큰 — 공개 당시 업계 최장
- Lightning Attention + Softmax Attention + MoE 하이브리드 아키텍처
- 최신 M2.5(230B)가 2026년 리더보드 S-Tier 상위권 진입
Shanghai AI Lab — InternLM 시리즈
상하이 인공지능 연구소의 InternLM3는 수학 추론(InternLM-Math), 비전-언어(InternLM-XComposer) 등 특화 모델 라인업으로 학술 커뮤니티에서 강한 존재감을 유지하고 있습니다.
2026년 주요 벤치마크 비교
| 모델 | MMLU-Pro | GPQA Diamond | HumanEval | SWE-bench | Chatbot Arena |
|---|---|---|---|---|---|
| GLM-5 (744B) | ~87+ | 86.0 | ~98 | 77.8 | 1,454 |
| Kimi K2.5 (1T) | 87.1 | 87.6 | 99.0 | — | 1,447 |
| Qwen3.5-397B | 87.8 | 88.4 | — | 76.4 | — |
| Llama 4 Maverick | — | — | — | — | 멀티모달 최강 |
| Mistral Large 3 | — | — | — | — | 오픈소스 6위 |
중국 AI가 보여주는 것들
중국 모델들이 주목받는 이유는 단순히 "저렴해서"가 아닙니다. 기술적으로도 독특한 접근이 있습니다.
1. 효율 극대화 — MoE의 진화 DeepSeek V3.2는 685B 중 37B만 활성화합니다(5.4%). Qwen 3.5는 397B 중 17B(4.3%). 이는 더 많은 GPU를 쓰는 게 아니라 더 효율적인 알고리즘으로 경쟁하겠다는 전략입니다.
2. 화웨이 칩으로의 훈련 GLM-5는 Ascend 910B 칩 10만 장으로 훈련됐습니다. 엔비디아 제재가 오히려 중국 자체 AI 인프라 생태계를 빠르게 성숙시키는 역설적 결과를 낳고 있습니다.
3. 비용 혁신이 가져온 파급 효과 GPT-4급 성능 API 가격이 2023년 백만 토큰당 $30에서 2026년 $1 이하로 떨어졌습니다. 이 가격 하락의 주역은 DeepSeek와 Qwen입니다. 서방 업체들도 가격을 따라 내릴 수밖에 없는 상황입니다.
정리
오픈소스 LLM 시장은 지금 이 순간에도 빠르게 바뀌고 있습니다. 2026년 현재 단 하나의 "최고" 모델은 없습니다. 용도에 따라 달라집니다.
- 로컬 실행이 필요하다면: Gemma 3 27B, Phi-4 14B
- 비용 효율이 중요하다면: DeepSeek V3.2, Qwen 3.5
- 추론·수학 특화: DeepSeek R1, Kimi K2.5
- 멀티모달 오픈소스: Llama 4 Scout/Maverick, Gemma 3 4B+
- 에이전트 워크플로우: Kimi K2.5, GLM-5
한 가지 확실한 건, 오픈소스 LLM의 수준이 1~2년 전 독점 모델을 따라잡았다는 사실입니다. 그리고 그 추진력의 상당 부분이 중국에서 오고 있습니다.
이 포스트는 TechInsights, SemiAnalysis, TrendForce, Tom's Hardware, Hugging Face 공식 문서 등 공개 자료를 바탕으로 작성되었습니다. (2026년 3월 25일)
새 글을 이메일로 받아보세요 ✉️
새 글이 올라오면 바로 알려드릴게요