화웨이 Atlas 350, 엔비디아 없이도 AI 인프라 굴린다

솔직히 말하면, 저는 작년까지만 해도 화웨이 AI 칩에 크게 관심이 없었어요. 엔비디아 H100이 사실상 표준인 세상에서, 굳이 다른 선택지를 살펴볼 이유가 없었거든요. 그런데 최근 중국 클라우드 업체들이 엔비디아 대신 화웨이 칩으로 LLM을 학습시키고 있다는 이야기를 접하면서 조금 파고들기 시작했습니다.

그 중심에 Atlas 350이 있었습니다.

화웨이 로고 — Huawei Atlas AI 가속기

Atlas 350이 뭐야?

Atlas 350은 화웨이의 Ascend 950PR 칩을 탑재한 추론(inference) 특화 AI 가속기입니다. 2026년 3월 20일 화웨이 중국 파트너 컨퍼런스에서 공식 발표됐으며, 이전 세대 대비 대폭 향상된 스펙을 자랑합니다.

주요 스펙을 정리하면:

항목	사양
AI 연산 성능	1.56 PFLOPS (FP4 기준)
메모리	112GB HiBL 1.0 HBM (자체 개발)
메모리 대역폭	1.4 TB/s
전력	600W TDP
지원 프레임워크	MindSpore, ONNX, PyTorch (변환 필요)
엔비디아 대비	H20 대비 약 2.8배 FP4 성능

눈에 띄는 점은 메모리입니다. 기존에는 SK하이닉스나 삼성 HBM에 의존했는데, 이번 950PR부터는 자체 개발한 HiBL 1.0 HBM을 탑재했습니다. 대외 의존도를 줄이는 데 있어 중요한 이정표입니다.

어느 공정으로 만드나? — SMIC와 DUV의 한계돌파

Atlas 350의 두뇌인 Ascend 950PR은 **SMIC의 N+3 공정(약 5nm급 밀도)**으로 제조되는 것으로 알려져 있습니다.

여기서 흥미로운 점이 있습니다. 일반적으로 5nm급 공정을 구현하려면 ASML의 EUV(극자외선) 장비가 필요합니다. 그런데 미국 수출 규제로 인해 SMIC는 EUV 장비를 들여올 수 없는 상황입니다. 그렇다면 어떻게 5nm급을 달성했을까요?

**답은 SAQP(Self-Aligned Quadruple Patterning)**입니다. 기존 DUV(심자외선) 장비로 패턴을 4번 겹쳐 노광하는 방식인데, EUV 없이도 유사한 회로 밀도를 구현할 수 있습니다. 다만 공정이 복잡하고 수율이 낮아 비용이 높은 단점이 있습니다.

반도체 실리콘 웨이퍼 — SMIC 공정의 출발점 반도체 제조의 기반이 되는 실리콘 웨이퍼. SMIC는 DUV 장비만으로 5nm급 공정을 구현하고 있다. (CC0)

이전 세대인 Ascend 910C는 조금 다른 배경을 갖고 있습니다. 테크인사이츠(TechInsights)의 분해 분석에 따르면, 910C 내 NPU 다이와 CPU 다이 모두 TSMC 7nm 공정으로 제조된 것으로 확인됐습니다. 화웨이가 2020년 TSMC 거래 중단 이전에 대량으로 비축해 둔 다이를 지금까지 사용 중인 셈이죠. 이 재고를 소진하면서, 신규 물량은 점차 SMIC N+2 공정으로 전환되고 있습니다.

칩	공정	파운드리
Ascend 910C	7nm	TSMC (사전 비축)
Ascend 950PR (Atlas 350)	~5nm급 (SAQP DUV)	SMIC

왜 지금 주목받나?

이유는 간단합니다. 엔비디아 칩을 살 수 없는 상황이기 때문이에요.

미국의 수출 규제로 인해 H100, A100은 물론 그 하위 버전까지 중국 기업들에게 판매가 제한되면서, 대안이 절실해졌습니다. 화웨이는 이 기회를 놓치지 않고 Ascend 라인업을 빠르게 확장했고, Atlas 350은 그 결과물 중 하나입니다.

중국 내에서는 바이두, 화웨이 클라우드, 차이나텔레콤 등 대형 플레이어들이 이미 Atlas 계열 칩을 사용 중이고, 일부 기업은 Atlas 기반 클러스터로 70B 파라미터급 모델까지 추론하고 있다는 보고가 나오고 있습니다.

중국 AI 칩 개발 현황 — 독립을 향한 질주

화웨이 혼자만의 이야기가 아닙니다. 중국 전체가 반도체 자립을 향해 움직이고 있습니다.

주요 플레이어:

화웨이 / 하이실리콘 — 압도적 선두. Ascend 910B/C 학습용, Atlas 350 추론용. 2028년까지 4 제타플롭스(ZFLOPS) FP4 목표
캠브리콘(Cambricon) — 쓰위안(思远) 590/690 시리즈. 2025년 대비 2026년 출하량 3배 목표(50만 개)
바이두 — 쿤룬(Kunlun) M100 추론칩(2026), M300 학습+추론(2027) 예정
알리바바, 무어스레드, 하이곤 등 후발 주자들도 빠르게 성장 중

주목할 성과:

화웨이 CloudMatrix 384 시스템(910C 클러스터)이 엔비디아 GB200 NVL72와 클러스터 수준에서 경쟁 가능하다는 SemiAnalysis 벤치마크 발표
Ascend 950PR에 자체 HBM(HiBL 1.0) 첫 탑재 — 메모리까지 내재화 시작
SMIC가 자국산 첫 이머전(immersion) DUV 리소그래피 장비 테스트 시작 (화웨이 자회사 SiCarrier 개발)
화웨이와 캠브리콘이 중국 정부 조달 목록에 공식 등재

여전히 남은 과제:

EUV 장비 부재로 SMIC 수율은 40~50% 수준 (TSMC 대비 여전히 낮음)
소프트웨어 생태계 — CUDA만큼의 라이브러리와 툴체인 생태계 구축까지 갈 길이 멀다
캠브리콘 등 2위권 업체들의 수율은 여전히 20% 수준에 머물러 있음

엔비디아 GPU와 뭐가 다른가?

실제로 써본 엔지니어들 후기를 보면 공통적으로 나오는 이야기가 있습니다.

소프트웨어 생태계가 문제다.

CUDA는 수십 년에 걸쳐 쌓인 라이브러리와 툴체인이 있습니다. PyTorch, TensorFlow, 각종 최적화 라이브러리가 모두 CUDA 위에서 돌아가도록 설계되어 있죠. 반면 Atlas 350은 화웨이의 자체 프레임워크인 MindSpore 또는 CANN(Compute Architecture for Neural Networks) 위에서 작동하는데, 기존 CUDA 코드를 그대로 가져다 쓸 수 없습니다.

이게 얼마나 현실적인 장벽인지는, 팀에 MindSpore 경험자가 한 명이라도 있어야 한다는 뜻이에요. 그리고 솔직히 아직 그런 인재 풀이 많지 않습니다.

하지만 화웨이도 이 점을 알고 있어서, ONNX 변환 도구와 PyTorch 어댑터를 계속 개선하고 있습니다. 완벽하진 않지만, 전보다는 훨씬 나아졌다는 평가가 있습니다.

12인치 실리콘 웨이퍼 — 첨단 반도체 공정의 핵심 12인치 실리콘 웨이퍼. 화웨이 Ascend 칩도 이런 웨이퍼 위에서 SMIC 공정으로 탄생한다. (CC BY-SA 3.0, Peellden)

정리

Atlas 350을 보면서 드는 생각은, 이 칩이 엔비디아를 이긴다 못 이긴다의 문제가 아니라는 거예요. 선택지가 없어서 쓰던 물건이 실제로 써보니 꽤 쓸 만하다는 사실, 그리고 그 경험이 쌓이면 결국 생태계가 만들어진다는 사실이 더 중요한 것 같습니다.

EUV도 없이 5nm급 공정을 SAQP로 돌파하고, HBM도 자체 개발하고, 클러스터 수준에서 GB200과 경쟁하는 벤치마크까지 나왔습니다. 5년 전엔 상상하기 어려웠던 일입니다.

5년 전 ARM이 x86의 대안으로 진지하게 논의되기 시작한 것처럼, 지금의 화웨이 Ascend가 그 흐름을 타고 있을 수도 있겠다 싶습니다. 물론 아닐 수도 있고요.

일단 지켜보고 있습니다.

이 포스트는 공개된 기술 문서와 업계 보고서(TechInsights, SemiAnalysis, Tom's Hardware, TrendForce 등)를 바탕으로 작성되었습니다. (2026년 3월 25일)

Atlas 350이 뭐야?

어느 공정으로 만드나? — SMIC와 DUV의 한계돌파

왜 지금 주목받나?

중국 AI 칩 개발 현황 — 독립을 향한 질주

엔비디아 GPU와 뭐가 다른가?

정리

새 글을 이메일로 받아보세요 ✉️