블로그로 돌아가기
2026년 글로벌 오픈소스 LLM 총정리 — 메타 라마부터 중국 AI까지
테크추천

2026년 글로벌 오픈소스 LLM 총정리 — 메타 라마부터 중국 AI까지

메타 Llama 4, DeepSeek, Qwen, GLM, Kimi 등 전 세계 주요 오픈소스 LLM의 현황과 스펙, 벤치마크를 한눈에 정리했습니다. 중국 AI 업체들의 약진이 두드러집니다.

2026년 3월 25일7분 읽기

오픈소스 LLM 시장이 2년 전과 완전히 달라졌습니다. 예전엔 메타 Llama가 유일한 선택지처럼 여겨졌는데, 지금은 선택지가 너무 많아서 오히려 뭘 써야 할지 모를 지경입니다. 그 중심에 중국 AI 업체들의 약진이 있습니다.

이 글에서는 2026년 3월 기준으로 전 세계에서 주목받는 오픈소스 LLM들을 정리했습니다.


Meta — Llama 오픈소스 LLM의 시작

먼저 숫자로 보는 현황

  • 중국에서 2025년까지 공개된 LLM만 1,500종 이상
  • 글로벌 오픈소스 LLM 사용량 중 중국 모델 점유율: 약 30% (2024년 말 1.2%에서 급등)
  • GPT-4급 성능 API 가격: 2023년 백만 토큰당 $30 → 2026년 $1 이하

이 세 가지 수치만 봐도 지금 무슨 일이 일어나고 있는지 대략 감이 옵니다.


서방 주요 오픈소스 LLM

Meta — Llama 4 시리즈 (2025년 4월)

오픈소스 LLM의 기준점 역할을 해온 Llama가 4세대에서 MoE(Mixture-of-Experts) 구조로 전환했습니다. 같은 성능을 더 적은 활성 파라미터로 달성하는 방향입니다.

모델활성 파라미터전체 파라미터컨텍스트
Llama 4 Scout17B (16 전문가)109B1,000만 토큰
Llama 4 Maverick17B (128 전문가)400B100만 토큰
Llama 4 Behemoth288B (16 전문가)2조학습 중

Scout은 컨텍스트 윈도우가 무려 1,000만 토큰입니다. 긴 문서 처리나 코드베이스 분석에서 압도적인 강점을 가집니다. Maverick은 GPT-4o와 Gemini 2.0 Flash를 멀티모달 벤치마크에서 능가하며, DeepSeek V3와 추론/코딩에서 비슷한 성능을 절반 이하의 활성 파라미터로 달성했습니다.


Mistral AI — Mistral 3 시리즈 (2025년 12월)

프랑스 스타트업으로 Apache 2.0 라이선스를 고수하는 것으로 유명합니다.

  • Mistral Large 3: MoE 구조, 활성 41B / 전체 675B. LMArena 오픈소스 비추론 모델 2위(전체 6위)
  • Ministral 시리즈: 3B, 8B, 14B — 엣지·로컬 배포용
  • Devstral Small 2 (24B): 코딩 특화, Qwen 3 Coder Flash를 능가한다고 주장

Google — Gemma 3 시리즈

Gemini 아키텍처에서 증류한 소형 오픈 모델 시리즈. 가장 큰 특징은 4B 이상 모델이 네이티브 멀티모달을 지원한다는 점입니다. 비슷한 크기의 경쟁 모델 대부분이 텍스트만 처리하는 것과 다릅니다.

  • 크기: 1B, 4B, 12B, 27B
  • 컨텍스트: 128K 토큰, 140개 이상 언어 지원
  • Gemma 3 27B은 소비자용 RTX 3090에서 로컬 실행 가능

Microsoft — Phi-4 (14B)

"크기가 전부가 아니다"를 증명하는 모델. GPT-4로 생성한 고품질 합성 데이터로 학습해 14B 파라미터로 70B급 모델 다수를 능가합니다.

  • GSM8K 수학 정답률 93.7%, MATH 73.5%
  • 함수 호출(Function Calling) 지원
  • 단점: 주로 영어 특화, 한국어·중국어는 파인튜닝 필요

Falcon 3 시리즈 (UAE 기술혁신연구소, 2024년 12월)

UAE 아부다비 정부 기관인 TII가 만든 오픈소스 모델입니다.

  • 크기: 1B, 3B, 7B, 10B
  • 14조 토큰 학습, 32K 컨텍스트
  • Falcon 3-10B는 출시 당시 HuggingFace 리더보드 13B 이하 1위

중국 오픈소스 LLM — 지금 가장 뜨거운 전선

중국 AI 업체들의 오픈소스 전략은 서방과 다릅니다. 최고 성능 모델을 오픈소스로 공개하며 생태계 선점에 나서고 있습니다. 비용은 놀라울 정도로 낮습니다.

인공지능 데이터센터 — 중국 AI 인프라의 상징

DeepSeek — 가장 충격적인 등장

2025년 1월, DeepSeek-R1이 공개되면서 AI 업계에 파장이 일었습니다. OpenAI o1과 동등한 추론 성능을 H800 GPU 2,000장, 55일, 약 600만 달러의 훈련 비용으로 달성했다는 주장 때문이었습니다. GPT-4 훈련 비용 추정치의 1/18 수준입니다.

DeepSeek의 모델 타임라인:

모델출시전체/활성 파라미터핵심
DeepSeek-V32024년 12월671B / 37BMoE, 14.8T 토큰 학습
DeepSeek-R12025년 1월671B / 37B강화학습 기반 추론 특화
DeepSeek-V3-03242025년 3월671B / 37B강화학습 포스트 트레이닝 개선
DeepSeek-V3.12025년 8월V3+R1 하이브리드V3와 R1의 강점 결합
DeepSeek-V3.22025년 12월685B에이전트 워크플로우, MIT 라이선스

R1 주요 벤치마크:

  • MATH-500: 97.3%
  • Codeforces Elo: 2,029 (OpenAI-o1과 동등)
  • MMLU: 88.5%

API 가격 면에서도 혁신적입니다. DeepSeek R1은 출시 당시 OpenAI o1 대비 27배 저렴했고, V3.2 기준으로는 경쟁 모델 대비 140배 이상 저렴합니다.


Alibaba Qwen — 현재 가장 넓은 오픈소스 LLM 패밀리

알리바바의 Qwen 시리즈는 현재 전 세계에서 가장 다양하고 광범위한 오픈소스 LLM 패밀리 중 하나입니다.

시리즈출시파라미터특징
Qwen 2.52024년 하반기0.5B~72B다국어, 코딩 강점
Qwen 32025년 4월0.6B~235B MoE하이브리드 추론, 36T 토큰, 119개 언어
Qwen 3.52026년 2월397B / 활성 17B201개 언어, 256K 컨텍스트, Apache 2.0
Qwen 3.5 Small2026년 3월0.8B~9B온디바이스, 엣지 특화

Qwen 3.5-397B의 특징이 눈에 띕니다. 전체 397B이지만 실제 활성 파라미터는 17B뿐이며, 전작 대비 60% 저렴한 추론 비용에 256K 컨텍스트를 지원합니다.

Qwen 3.5-397B 벤치마크:

  • MMLU-Pro: 87.8%
  • AIME 2026 수학: 91.3%
  • LiveCodeBench 코딩: 83.6%
  • GPQA Diamond 과학: 88.4%
  • SWE-bench (실제 소프트웨어 엔지니어링): 76.4%

Zhipu AI — GLM-5 (2026년 2월)

칭화대학교 배경의 스타트업 지푸(智谱)AI가 공개한 GLM-5는 오픈소스 모델 리더보드 최상위를 노리는 모델입니다.

  • 파라미터: 744B MoE (활성 44B)
  • 컨텍스트: 205K 토큰
  • 라이선스: MIT
  • 학습 인프라: 화웨이 Ascend 910B 칩 100,000장 + MindSpore 프레임워크

이 마지막 항목이 흥미롭습니다. 엔비디아 GPU 없이 화웨이 Ascend로 대규모 훈련을 완료한 사례입니다. 제재 우회가 아닌 기술 자립의 실증 사례라 할 수 있습니다.

GLM-5 벤치마크:

  • SWE-bench: 77.8%
  • BrowseComp: 75.9%
  • Chatbot Arena: 1,454점 (리더보드 최상위권)
  • API 가격: Claude Opus 4.6 대비 6배 저렴

Moonshot AI — Kimi K2.5 (2026년 1월)

월지암면(月之暗面)이 운영하는 Moonshot AI의 Kimi 시리즈는 에이전트 성능에서 두각을 나타냅니다.

  • 파라미터: 1T MoE (활성 32B)
  • 특징: 최대 100개 서브에이전트를 자율 생성·조율하는 스웜 시스템
  • 비전 인코더 MoonViT(400M) 추가로 멀티모달 지원
  • HumanEval: 99.0 (현재까지 측정된 모델 중 최고점)
  • AIME 2025 수학: 96.1
  • 훈련 비용: 약 460만 달러

MiniMax — MiniMax-Text-01

  • 파라미터: 전체 456B, 활성 45.9B
  • 컨텍스트 윈도우: 400만 토큰 — 공개 당시 업계 최장
  • Lightning Attention + Softmax Attention + MoE 하이브리드 아키텍처
  • 최신 M2.5(230B)가 2026년 리더보드 S-Tier 상위권 진입

Shanghai AI Lab — InternLM 시리즈

상하이 인공지능 연구소의 InternLM3는 수학 추론(InternLM-Math), 비전-언어(InternLM-XComposer) 등 특화 모델 라인업으로 학술 커뮤니티에서 강한 존재감을 유지하고 있습니다.


2026년 주요 벤치마크 비교

모델MMLU-ProGPQA DiamondHumanEvalSWE-benchChatbot Arena
GLM-5 (744B)~87+86.0~9877.81,454
Kimi K2.5 (1T)87.187.699.01,447
Qwen3.5-397B87.888.476.4
Llama 4 Maverick멀티모달 최강
Mistral Large 3오픈소스 6위

중국 AI가 보여주는 것들

중국 모델들이 주목받는 이유는 단순히 "저렴해서"가 아닙니다. 기술적으로도 독특한 접근이 있습니다.

1. 효율 극대화 — MoE의 진화 DeepSeek V3.2는 685B 중 37B만 활성화합니다(5.4%). Qwen 3.5는 397B 중 17B(4.3%). 이는 더 많은 GPU를 쓰는 게 아니라 더 효율적인 알고리즘으로 경쟁하겠다는 전략입니다.

2. 화웨이 칩으로의 훈련 GLM-5는 Ascend 910B 칩 10만 장으로 훈련됐습니다. 엔비디아 제재가 오히려 중국 자체 AI 인프라 생태계를 빠르게 성숙시키는 역설적 결과를 낳고 있습니다.

3. 비용 혁신이 가져온 파급 효과 GPT-4급 성능 API 가격이 2023년 백만 토큰당 $30에서 2026년 $1 이하로 떨어졌습니다. 이 가격 하락의 주역은 DeepSeek와 Qwen입니다. 서방 업체들도 가격을 따라 내릴 수밖에 없는 상황입니다.


정리

오픈소스 LLM 시장은 지금 이 순간에도 빠르게 바뀌고 있습니다. 2026년 현재 단 하나의 "최고" 모델은 없습니다. 용도에 따라 달라집니다.

  • 로컬 실행이 필요하다면: Gemma 3 27B, Phi-4 14B
  • 비용 효율이 중요하다면: DeepSeek V3.2, Qwen 3.5
  • 추론·수학 특화: DeepSeek R1, Kimi K2.5
  • 멀티모달 오픈소스: Llama 4 Scout/Maverick, Gemma 3 4B+
  • 에이전트 워크플로우: Kimi K2.5, GLM-5

한 가지 확실한 건, 오픈소스 LLM의 수준이 1~2년 전 독점 모델을 따라잡았다는 사실입니다. 그리고 그 추진력의 상당 부분이 중국에서 오고 있습니다.


이 포스트는 TechInsights, SemiAnalysis, TrendForce, Tom's Hardware, Hugging Face 공식 문서 등 공개 자료를 바탕으로 작성되었습니다. (2026년 3월 25일)

새 글을 이메일로 받아보세요 ✉️

새 글이 올라오면 바로 알려드릴게요