Gemma 4 MTP 은폐 논란: Google이 오픈소스에서 기능을 숨겼다가 들통나다

Gemma 4 MTP 은폐 논란: Google이 오픈소스에서 기능을 숨겼다가 들통나다

5분 읽기원문 보기

안녕하세요, Tom입니다.

오픈소스 AI 생태계를 보면서 늘 생각하는 게 있어요. "오픈소스"라는 단어가 실제로 무엇을 의미하느냐는 거예요. 모델 가중치를 공개한다고 다 오픈소스인가? 중요한 기능이 빠진 모델을 "오픈소스"라고 부르는 게 맞나?

이번 Gemma 4 MTP 논란이 정확히 이 질문을 건드려요. Google이 Gemma 4를 훈련할 때는 MTP 기술을 썼는데, HuggingFace에 공개한 모델에서는 그 기능을 제거했어요. 그리고 이를 명시하지 않았어요. 커뮤니티가 리버스 엔지니어링으로 발견할 때까지요.

MTP가 뭐고 왜 중요한가

MTP(Multi-Token Prediction)는 모델이 다음 토큰 하나를 예측하는 대신 여러 토큰을 동시에 예측하는 방식이에요. 단순히 여러 번 반복하는 게 아니라 병렬로 처리하기 때문에 추론 속도가 크게 올라가요.

구체적인 수치가 나왔어요. MTP를 활성화하면 코드 생성에서 8 tps에서 25 tps로 3배 향상돼요. 일반 글쓰기에서는 78 tps에서 1114 tps로 올라가요. 같은 모델을 쓰면서 응답 속도만 2~3배 빨라지는 거예요.

로컬에서 모델을 돌리는 사람들에게 이건 체감 차이가 매우 큰 변경이에요. 서버리스 API 쓸 때는 속도를 체감하기 어렵지만, 로컬 추론에서는 tps가 바로 대화 흐름에 영향을 주거든요.

어떻게 발각됐나

커뮤니티 개발자들이 .litertlm이라는 컴파일된 형식을 리버스 엔지니어링했어요. 이 파일 안에 MTP 관련 가중치와 설정이 그대로 남아 있었거든요. HuggingFace Transformers 버전에서는 없는 내용이었어요.

즉, Google은 MTP를 포함해서 모델을 훈련했어요. 그 학습된 가중치는 특정 포맷에 남아 있어요. 하지만 일반 공개 버전에서는 그 부분을 제거해서 올렸어요. 그리고 이 사실을 릴리스 노트나 모델 카드에 적지 않았어요.

Google의 해명

커뮤니티 반응이 거세지자 Google이 입장을 냈어요. 이유는 "HuggingFace Transformers API와의 호환성 문제"였어요.

HuggingFace의 표준 Transformers 라이브러리가 MTP를 아직 완전히 지원하지 않기 때문에, 일반 사용자들이 쉽게 쓸 수 있도록 MTP를 제거한 상태로 올렸다는 거예요.

이 해명을 들었을 때 처음엔 "그럴 수 있겠다"고 생각했어요. 그런데 생각할수록 뭔가 이상해요.

호환성 때문에 기능을 제거했다면, 그 사실을 모델 카드에 명시하면 되는 거잖아요. "MTP는 호환성 문제로 제외됐습니다. MTP 활성화 버전은 별도 포맷으로 제공될 예정입니다"처럼요. 이 한 문장이 없었던 게 문제예요.

커뮤니티 반응과 Google의 늦은 대응

커뮤니티의 시선은 더 냉소적이었어요. 이렇게 읽히더라고요. Google이 Gemini API에서는 MTP 성능을 쓰고, 로컬 오픈소스 버전에서는 성능을 의도적으로 낮춰서 상업 API 경쟁력을 유지하려는 게 아니냐는 거예요.

완전히 확인된 의도는 아니에요. 하지만 명시적인 해명이 없는 상태에서 이런 해석이 나오는 건 당연한 거예요. 오픈소스 커뮤니티는 투명성에 예민하거든요. 설명 없는 기능 제거는 신뢰를 깎아요.

Google이 뒤늦게 대응에 나섰어요. 5월 5~6일에 약 500M 파라미터의 gemma4_assistant drafter 모델을 HuggingFace에 별도 공개했어요. MTP를 활용할 수 있는 소형 초안 모델이에요.

대응은 잘했지만, 이 모델이 처음 Gemma 4 공개와 동시에 나왔어야 했다는 생각이에요. 커뮤니티 압박 이후의 뒤늦은 공개라는 인상이 지워지지 않아요.

오픈소스의 신뢰 문제

저는 이 사건을 보면서 Meta의 Llama 정책과 비교하게 됐어요. Meta는 "부분 오픈소스"라는 표현을 쓰면서 상업적 사용 제한을 명확히 문서화해요. Google은 그보다는 투명하게 공개해왔다고 알려져 있었는데, 이번 건은 그 인식에 흠집을 냈어요.

tldraw가 AI 생성 무분별 PR 대응으로 외부 기여를 자동으로 닫는 정책을 도입했을 때도 비슷한 맥락이었어요. 오픈소스라는 레이블과 실제 운영 방식 사이의 간격에 대한 커뮤니티의 민감도가 높아지고 있는 거예요.

이번 Gemma 4 사건에서 의미 있는 교훈이 있어요.

참고: 오픈소스 모델을 평가할 때는 단순히 "가중치가 공개됐냐"뿐 아니라 "어떤 기능이 포함됐고 어떤 게 빠졌냐"를 확인하는 게 중요해요. 모델 카드의 제외 항목 섹션을 꼼꼼히 보는 습관이 필요해요.

"오픈소스"는 투명성에 대한 약속이기도 해요. 가중치를 공개했더라도 중요한 설계 결정을 숨기면 그 약속을 어기는 거예요. Google이 이번 논란에서 배워야 할 게 있다면 그거예요.


원문: Gemma 4 MTP 은폐 논란

관련 글