MoE 아키텍처 해설: DeepSeek V4가 1.6조 파라미터인데 싸게 돌아가는 이유

안녕하세요, Tom입니다.

GPT-4나 DeepSeek V4 같은 최신 모델 이야기를 할 때 "MoE 구조"라는 표현이 자주 나와요. DeepSeek V4-Pro가 1.6조 파라미터인데 GPT-4o보다 저렴하게 쓸 수 있는 이유가 바로 여기에 있어요. 직접 코드를 쓰거나 모델을 파인튜닝하지 않는 입장에서도 이 구조를 이해해두면 모델 선택과 비용 계획에 도움이 돼요.

Dense 모델의 한계부터

Dense 모델은 토큰 하나를 처리할 때마다 모든 파라미터를 활성화해요. 70B 파라미터 모델이라면, "안녕"이라는 단어 하나를 처리할 때 700억 개의 파라미터가 전부 계산에 참여해요.

이게 비효율적인 이유가 있어요. "안녕"이라는 인사말을 처리할 때와 파이썬 정렬 알고리즘을 처리할 때, 필요한 지식이 달라요. 인사말 처리에 파이썬 전문 뉴런이 참여할 이유가 없는데, Dense 모델은 어쨌든 다 씁니다.

MoE의 아이디어: 전문가 집단

Mixture of Experts는 여러 전문가 서브네트워크와 라우터로 구성돼요.

구조를 간단히 설명하면 이래요. 모델 안에 수십 개에서 수백 개의 "전문가(expert)" 네트워크가 있어요. 그리고 입력을 보고 어떤 전문가를 쓸지 결정하는 라우터(router)가 있어요.

토큰 하나가 들어오면 라우터가 "이건 코딩 관련이니까 전문가 3번, 8번, 17번을 쓰자"고 결정하고, 그 전문가들만 활성화돼요. 나머지 전문가들은 이번 토큰 처리에 참여하지 않아요.

DeepSeek V4의 숫자로 보면

DeepSeek V4-Pro는 1.6조(1,600B) 파라미터를 가지고 있어요. 그런데 실제로 토큰 하나를 처리할 때 활성화되는 파라미터는 490억(49B)에 불과해요. 전체의 약 3%예요.

추론 비용은 활성화된 파라미터 수에 비례해요. 그러니까 1.6조 파라미터 모델이지만 계산 비용은 49B Dense 모델과 비슷해요. 그런데 성능은 훨씬 더 높아요. 1.6조 파라미터의 지식을 잠재적으로 활용할 수 있으니까요.

가격 대비 성능이 같은 규모의 Dense 모델 대비 3~5배 좋다는 수치가 나오는 게 이 구조 때문이에요.

메모리가 발목을 잡는다

MoE가 만능이 아닌 이유가 있어요.

모든 전문가를 메모리에 올려야 해요. 추론 시 49B만 계산에 쓰지만, 1.6조 파라미터 전부가 GPU VRAM에 올라가 있어야 해요. 어느 전문가가 호출될지 모르니까요.

DeepSeek V4-Pro를 혼자 돌리려면 수백 기가바이트의 VRAM이 필요해요. 개인이 로컬에서 돌리기 어려운 이유가 여기 있어요. 클라우드 API로 쓸 때는 이 부담을 서비스 제공자가 지니까 사용자가 체감하기 어렵지만요.

학습 단계에서도 문제가 있어요. 어떤 전문가에게 어떤 토큰을 보낼지 로드 밸런싱이 잘 돼야 해요. 특정 전문가만 과부하가 걸리고 나머지는 놀게 되면 학습이 비효율적으로 돼요. 이걸 해결하는 보조 손실 함수(auxiliary loss)를 쓰는데, 잘 튜닝하지 않으면 오히려 성능이 떨어지기도 해요.

2026년 현재 주요 MoE 모델들

이미 많은 주요 모델이 MoE 구조를 쓰고 있어요.

GPT-4: MoE 구조 추정 (OpenAI가 공식 확인하지 않았지만 아키텍처 분석에서 MoE로 판단)
Gemini 1.5: MoE 구조 공식 확인
Mixtral 8x7B, 8x22B: 오픈소스 MoE의 대표 모델
DeepSeek 시리즈: MoE를 적극 채택한 중국 모델
GPT-5.4, GPT-5.5: 정확한 아키텍처는 미공개지만 MoE 가능성

Dense 구조로 남아있는 대표적인 모델은 Llama 시리즈예요. Meta는 상대적으로 Dense 구조에서 성능을 끌어올리는 방향을 선택해왔어요.

개발자 관점에서 왜 알아야 하나

코딩 도구나 API를 쓰는 입장에서 MoE를 이해하면 두 가지가 달라져요.

첫째, 모델 가격이 계속 내려가는 이유를 이해할 수 있어요. 같은 성능을 내는 데 필요한 계산량이 줄어드니까요. Claude Code나 Codex 같은 AI 코딩 도구의 API 비용이 장기적으로 떨어지는 배경이기도 해요. 실제로 GPT-4 초기 가격과 지금을 비교해보면 토큰당 비용이 극적으로 줄었어요.

둘째, 로컬 실행 한계를 이해할 수 있어요. "1.6조 파라미터 모델을 로컬에서 돌릴 수 있냐"는 질문에 MoE 구조를 알면 더 정확하게 답할 수 있어요. 계산은 49B 수준이지만 메모리는 1.6조 분이 필요하니까요.

팁: MoE 모델을 로컬에서 쓰고 싶다면, 실제 활성 파라미터 수보다 전체 파라미터 수 기준으로 VRAM 요구사항을 보세요. "활성 49B"만 보고 판단하면 VRAM이 부족한 상황에 빠질 수 있어요.

LLM 아키텍처는 Dense에서 MoE, 그리고 두 가지를 섞은 Hybrid 구조로 계속 진화하고 있어요. 아키텍처 이해가 모델을 직접 만드는 사람만의 이야기가 아닌 시대가 됐어요.

원문: MoE 아키텍처 해설

MoE 아키텍처 해설: DeepSeek V4가 1.6조 파라미터인데 싸게 돌아가는 이유

Dense 모델의 한계부터

MoE의 아이디어: 전문가 집단

DeepSeek V4의 숫자로 보면

메모리가 발목을 잡는다

2026년 현재 주요 MoE 모델들

개발자 관점에서 왜 알아야 하나

관련 글

Karpathy의 LLM Wiki 패턴: RAG 대신 지식을 쌓는 새로운 방법

GPT-5.5 출시: 더 똑똑하고, 더 빠르고, 더 적은 토큰으로

Claude Opus 4.7 출시: 비전 3배 강화, 시스템 프롬프트는 어떻게 바뀌었나