LLM 아키텍처 갤러리: 최신 모델 구조를 한눈에 비교하는 방법

안녕하세요, Tom입니다.

요즘 자고 일어나면 새로운 LLM 모델이 발표되는 것 같아요. 모델 이름도 헷갈리는데, 그 속을 들여다보면 구조는 더 복잡하죠. Llama는 뭐고, DeepSeek은 또 어떤 구조를 쓰는지 궁금하셨던 분들에게 정말 반가운 소식을 가져왔어요.

바로 Sebastian Raschka가 정리한 LLM 아키텍처 갤러리예요. Sebastian은 'Build an LLM From Scratch'라는 책의 저자로도 아주 유명한 분이죠. 복잡한 딥러닝 개념을 정말 쉽게 풀어내기로 정평이 나 있는 분이라, 이번 자료도 믿고 보셔도 좋아요. 2024년부터 2026년까지 등장한 주요 모델들의 구조를 한눈에 볼 수 있게 정리해 주셨어요.

182메가픽셀로 보는 LLM의 지도

이번 자료의 백미는 무려 182메가픽셀에 달하는 초고해상도 포스터예요. 용량만 56MB인 PNG 파일로 제공되는데, 모델 하나하나의 세부 구조를 아주 정밀하게 그려냈어요.

단순히 그림만 있는 게 아니라, 각 모델의 파라미터 수, 출시일, 디코더 타입, 어텐션 메커니즘, 그리고 핵심적인 설계 특징들을 팩트 시트 형태로 담고 있어요. AI 연구자나 개발자들에게는 그야말로 보물지도 같은 자료라고 할 수 있죠.

심지어 Zazzle을 통해 실제 포스터로 주문할 수도 있다고 하니, 사무실 벽에 붙여두면 정말 멋질 것 같아요. 동료들과 커피 한 잔 마시면서 "이 모델은 왜 이런 구조를 썼을까?" 하고 토론하기 딱 좋은 아이템이죠.

모델별 아키텍처 살펴보기

갤러리에서는 모델들을 크게 세 가지 카테고리로 나누어 설명하고 있어요. 하나씩 자세히 살펴볼게요.

1. Dense 모델 (밀집형 모델)

가장 기본적인 구조이면서도 여전히 강력한 성능을 보여주는 모델들이에요. 모든 파라미터가 매 계산마다 활성화되는 방식이죠.

Llama 3 8B: GQA(Grouped-Query Attention)와 RoPE(Rotary Positional Embedding)를 사용한 전형적인 고성능 모델이에요. 메타의 Llama 시리즈는 이제 업계의 표준처럼 자리 잡았죠.
OLMo 2 7B: AI2(Allen Institute for AI)에서 만든 완전 오픈 소스 모델이에요. MHA(Multi-Head Attention)와 QK-Norm을 적용했어요. 특이하게 residual 블록 내부에서 post-norm 구조를 사용한 게 눈에 띄네요.

2. Sparse MoE 모델 (희소 전문가 혼합 모델)

최근 대세로 자리 잡은 MoE 구조예요. 전체 파라미터는 많지만, 실제 계산에는 일부만 사용하는 효율적인 방식이죠.

DeepSeek V3: 총 671B 파라미터 중 37B만 활성화돼요. MLA(Multi-head Latent Attention)와 공유 전문가(shared experts) 구조를 사용한 게 특징이에요. 이 모델 덕분에 MoE의 효율성이 다시 한번 증명되었죠.
DeepSeek R1: V3를 기반으로 추론 능력을 극대화한 모델이죠. 구조적인 변화보다는 학습 방식의 혁신이 돋보이는 모델이에요.
Llama 4 Maverick: 400B 파라미터 중 17B가 활성화되는 구조인데, Dense 층과 MoE 층을 교차해서 배치(interleaved)한 독특한 설계를 보여줘요. 메타의 차세대 모델에 대한 힌트를 얻을 수 있는 부분이에요.
Qwen3 235B-A22B: 알리바바에서 만든 모델로, 공유 전문가 없이 설계된 MoE 모델이에요. 각 전문가가 독립적으로 작동하는 방식이죠.
Qwen3.5 397B: 최근에 추가된 아주 거대한 MoE 모델이에요.

3. 하이브리드 및 최신 구조

기존의 트랜스포머 구조를 넘어서려는 시도들도 많이 보여요. 특히 긴 문맥 처리를 위한 혁신들이 눈에 띕니다.

Gemma 3 27B: 구글의 최신 모델로, 5:1 비율로 슬라이딩 윈도우 어텐션과 글로벌 어텐션을 섞어서 사용해요. 효율성과 성능의 균형을 잡으려는 시도죠.
Qwen3 Next 80B-A3B: Gated DeltaNet 구조를 채택한 하이브리드 모델이에요.
Kimi Linear 48B: Linear Attention과 MLA를 결합해서 효율성을 높였어요. 문맥이 길어져도 계산량이 급격히 늘어나지 않는 게 장점이에요.
Nemotron 3: 엔비디아에서 만든 모델로, Mamba-2 구조를 기반으로 하고 있어요. RNN의 장점과 트랜스포머의 장점을 합치려는 시도죠.
Ling 2.5: 무려 1T(1조) 파라미터 규모를 자랑하는 거대 모델이에요.
Sarvam 30B/105B: 인도에서 만든 모델로, 지역 특화된 언어와 문화적 맥락을 잘 이해하도록 설계되었어요.

그 외에도 GLM-4.5 355B는 에이전트 지향적인 설계를 가지고 있고, OpenAI에서 공개한 오픈 웨이트 모델인 GPT-OSS 20B/120B도 갤러리에 포함되어 있어요.

핵심: 최근 모델들은 성능을 위해 MLA나 Linear Attention 같은 기술을 적극적으로 도입하고 있어요.

용어 정리: 이것만 알아도 아키텍처가 보여요

갤러리를 보다 보면 낯선 용어들이 많이 나올 거예요. Tom이 간단하게 정리해 드릴게요.

GQA (Grouped-Query Attention): 여러 개의 Query가 하나의 Key-Value 쌍을 공유하는 방식이에요. 메모리 사용량을 줄이면서도 성능은 유지할 수 있죠.
RoPE (Rotary Positional Embedding): 단어의 위치 정보를 회전 행렬을 이용해 인코딩하는 방식이에요. 상대적인 위치를 더 잘 파악하게 해 줘요.
MLA (Multi-head Latent Attention): DeepSeek에서 선보인 기술로, KV 캐시의 크기를 획기적으로 줄여주는 어텐션 방식이에요.
MoE (Mixture of Experts): 여러 개의 '전문가' 네트워크를 두고, 입력값에 따라 필요한 전문가만 호출해서 사용하는 방식이에요.

아키텍처의 수렴, 그리고 차별화

이번 자료를 보면서 재미있는 인사이트를 하나 발견했어요. Hacker News 같은 커뮤니티에서도 많이 언급되는 내용인데, 사실 많은 모델이 비슷한 구조로 수렴하고 있다는 점이에요.

대부분 Dense Decoder-only + RMSNorm + RoPE + SwiGLU + GQA라는 공식을 따르고 있죠. 이제 아키텍처 자체에서 혁신적인 차이를 만들기는 점점 어려워지고 있다는 뜻이기도 해요.

그렇다면 어디서 차이가 날까요? 결국 데이터 파이프라인과 학습 레시피예요. 어떤 데이터를 어떤 순서로, 얼마나 정교하게 정제해서 먹였느냐가 모델의 성격을 결정짓는 핵심 요소가 된 거죠.

주의: DeepSeek-R1이 보여준 놀라운 성능도 사실 아키텍처의 혁신보다는 추론 체인에 대한 강화 학습(RL)의 승리라고 보는 시각이 많아요. 구조는 이미 상향 평준화되었고, 이제는 '어떻게 가르치느냐'의 싸움이 된 셈이죠.

Tom의 생각: 왜 아키텍처를 알아야 할까요?

우리가 직접 모델을 만들지 않더라도, 이런 구조를 이해하는 건 실무에서 아주 중요해요.

예를 들어, 내가 만들 서비스가 응답 속도(Latency)가 중요하다면 MLA나 MoE 구조를 채택한 모델이 유리할 수 있어요. MLA는 KV 캐시 용량을 획기적으로 줄여주기 때문에 긴 문맥을 처리할 때 비용과 속도 면에서 큰 이점이 있거든요.

반대로 아주 정교한 추론이 필요하다면 DeepSeek-R1 같은 모델의 배경을 이해하고 활용하는 게 좋겠죠. 모델의 '뼈대'를 알면, 이 모델이 왜 이런 성능을 내는지, 어떤 한계가 있을지 더 명확하게 예측할 수 있게 돼요. 단순히 벤치마크 점수만 보는 것보다 훨씬 깊이 있는 시야를 가질 수 있답니다.

또한, 최근 등장하는 하이브리드 모델들이나 Linear Attention 계열의 모델들은 기존 트랜스포머의 한계인 $O(n^2)$ 복잡도를 해결하려는 시도들이에요. 이런 흐름을 알고 있으면 앞으로 어떤 모델이 더 긴 문맥을 더 싸게 처리할 수 있을지 미리 가늠해 볼 수 있어요.

결국 아키텍처를 공부하는 건, 단순히 기술적인 호기심을 채우는 것을 넘어 비즈니스적인 의사결정을 내리는 데 큰 도움을 줘요. 어떤 모델을 우리 서비스의 엔진으로 쓸지 결정할 때, 그 엔진의 설계도를 볼 줄 아는 것과 모르는 것은 천지 차이니까요.

팁: Sebastian Raschka의 원문 기사인 "The Big LLM Architecture Comparison"과 "A Dream of Spring for Open-Weight LLMs"도 함께 읽어보시는 걸 추천해요. 갤러리에 담긴 도식들이 어떤 맥락에서 그려졌는지 훨씬 깊게 이해할 수 있을 거예요.

최신 기술의 흐름을 놓치지 않으려면 이런 갤러리 자료를 즐겨찾기 해두고 틈틈이 들여다보는 습관이 큰 도움이 될 거예요. 저도 새로운 모델이 나올 때마다 이 갤러리가 어떻게 업데이트되는지 계속 지켜볼 생각이에요.

복잡해 보이는 도식들도 하나씩 뜯어보다 보면 개발자로서의 호기심이 마구 자극되는 걸 느끼실 수 있을 거예요. 여러분은 어떤 모델의 구조가 가장 흥미로우신가요? 댓글로 의견 나눠주세요!

다음에 또 흥미로운 AI 소식으로 돌아올게요!

LLM 아키텍처 갤러리: 최신 모델 구조를 한눈에 비교하는 방법

182메가픽셀로 보는 LLM의 지도

모델별 아키텍처 살펴보기

1. Dense 모델 (밀집형 모델)

2. Sparse MoE 모델 (희소 전문가 혼합 모델)

3. 하이브리드 및 최신 구조

용어 정리: 이것만 알아도 아키텍처가 보여요

아키텍처의 수렴, 그리고 차별화

Tom의 생각: 왜 아키텍처를 알아야 할까요?

관련 글

GPT-5.5 출시: 더 똑똑하고, 더 빠르고, 더 적은 토큰으로

Claude Opus 4.7 출시: 비전 3배 강화, 시스템 프롬프트는 어떻게 바뀌었나

Meta, Llama가 아닌 완전히 새로운 AI 모델 패밀리를 오픈소스로 공개 예고