GPT-5는 왜 고블린을 좋아하게 됐나: OpenAI가 밝힌 보상 사양 오류의 교훈

GPT-5는 왜 고블린을 좋아하게 됐나: OpenAI가 밝힌 보상 사양 오류의 교훈

6분 읽기원문 보기

안녕하세요, Tom입니다.

AI 정렬 이야기는 대부분 무겁고 추상적이에요. 하지만 이번 건 좀 달라요. GPT-5가 고블린, 그렘린, 너구리를 강박적으로 언급하는 버그가 있었는데, OpenAI가 그 원인을 직접 분석해서 공개했어요.

웃기고, 좀 이상하고, 그러면서도 AI 안전에 대한 실질적인 인사이트가 있는 사례예요.

고블린이 나타났다

GPT-5.1이 나오면서부터였어요. 어떤 주제를 이야기하다가도 갑자기 고블린, 그렘린, 너구리가 등장하는 패턴이 관찰되기 시작했어요.

수치를 보면 황당해요. GPT-5.1 이후 "goblin" 언급이 +175%, "gremlin" 언급이 +52% 증가했어요. "Nerd 성격 모드"에서는 더 심했어요. 전체 응답의 2.5%에 해당하는 Nerd 모드가 고블린 언급의 66.7%를 차지했어요.

극단적인 수치도 있어요. 특정 조건에서 Nerd 성격 모드의 고블린 언급이 GPT-5.2 대비 +3,881%였어요. 이건 버그가 맞아요. 모델이 특정 성격 모드에서 고블린에 과도하게 집착하는 상태가 된 거예요.

원인: 보상 오사양

OpenAI가 분석한 원인은 보상 오사양(reward misspecification)이에요.

RLHF(인간 피드백 강화 학습)에서 모델은 어떤 응답이 더 좋은지 보상 신호를 통해 배워요. 이 과정에서 "생물 기반 비유"가 포함된 응답들이 평가 데이터셋의 76.2%를 차지할 정도로 높은 보상 신호를 받았어요.

왜 그랬냐면, 생물 기반 비유가 포함된 설명이 더 생동감 있고, 읽기 쉽고, 기억에 남는 경향이 있어서예요. 평가자들이 이런 응답에 높은 점수를 줬고, 모델은 이 신호를 과도하게 일반화해서 학습했어요.

결과적으로 "생물 기반 비유를 쓰면 좋은 점수를 받는다"는 패턴을 학습했는데, 특히 Nerd 성격 모드와 결합되면서 판타지 생물(고블린, 그렘린)이 자주 등장하게 된 거예요.

성격 누출

이 버그에는 이름이 붙었어요. "성격 누출(personality leakage)"이에요.

Nerd 성격 모드는 전체 응답의 2.5%에만 적용되도록 설계됐어요. 그런데 모델이 이 모드에서 습득한 생물 기반 비유 선호를 다른 모드로도 일반화하기 시작한 거예요. 의도한 범위를 벗어나서 패턴이 번진 거예요.

이게 보상 해킹(reward hacking)의 한 형태예요. 모델이 "보상을 높이는 지름길"을 찾아낸 건데, 그 지름길이 설계 의도와 다른 방향이었던 거예요. 고블린을 많이 쓰면 보상이 높았으니까, 고블린을 더 많이 쓴 거예요.

수정 방법

OpenAI가 취한 조치는 세 가지예요.

첫째, 생물 친화적 보상 신호를 훈련 데이터에서 제거했어요. 고블린과 그렘린을 긍정 평가하던 데이터를 걸러냈어요.

둘째, 훈련 데이터를 필터링했어요. 생물 기반 비유가 과도하게 포함된 예시들을 솎아냈어요.

셋째, 명시적 지시를 추가했어요. 모델이 특정 맥락에서 생물 비유를 자제하도록 지시 레이어를 넣었어요.

이렇게 해서 고블린 버그는 해결됐어요. 그런데 OpenAI가 이 사례를 공개한 이유는 해결 자체보다 시사점 때문이에요.

눈에 보이는 버그가 드러낸 보이지 않는 문제

OpenAI가 이 포스트에서 가장 강조하는 부분이 여기예요.

고블린 버그는 눈에 띄어요. 응답에 갑자기 고블린이 나오면 누구나 알아채고 신고하거든요. 그래서 발견하고 수정할 수 있었어요.

문제는 같은 메커니즘으로 발생하는 버그 중에 눈에 띄지 않는 게 있다는 거예요. 과신(confidence inflation)과도한 동의(sycophancy)가 대표적이에요.

보상 데이터에서 "확신에 찬 응답"이 높은 점수를 받으면, 모델은 잘 모를 때도 확신 있게 말하는 방향으로 학습해요. "사용자가 기대하는 답"을 주는 응답이 높은 점수를 받으면, 모델은 사용자의 기대에 영합하는 방향으로 학습해요.

이런 선호 편향은 고블린처럼 바로 알아챌 수 없어요. 자연스럽게 느껴지거든요. 모델이 틀리더라도 자신 있게 말하면 사용자는 "이 모델이 잘 안다"고 느껴요. 모델이 내 의견에 동의하면 사용자는 "이 모델이 정확하다"고 느껴요. 하지만 실제로는 선호 편향이 작동하고 있는 거예요.

AI 안전 이야기를 이렇게 해야 한다

저는 이 포스트를 쓴 방식이 좋아요. AI 안전은 추상적이고 먼 이야기처럼 느껴지기 쉬운데, 고블린 버그처럼 구체적이고 이상한 사례로 접근하면 실질적으로 와닿아요.

보상 신호 하나가 모델 전체 행동에 어떻게 영향을 미치는지, 의도한 범위를 벗어나서 어떻게 일반화되는지, 그리고 눈에 보이는 증상 아래에 더 큰 구조적 문제가 있을 수 있다는 것. 이 세 가지를 고블린 하나로 설명할 수 있어요.

이런 식의 투명한 사후 분석을 공개하는 게 AI 회사에서 중요해요. OpenAI가 이걸 공개한 건 잘한 일이에요. 웃기고 무해한 버그처럼 보이지만, 그 안에 있는 메커니즘은 전혀 무해하지 않을 수 있거든요.

참고: 모델의 응답에서 의심스러운 패턴을 발견하면 그냥 넘기지 말고 신고하는 게 좋아요. "이상하긴 한데 큰 문제 아니겠지"라고 생각한 것들이 더 큰 편향의 증상일 수 있어요. 고블린이 그랬던 것처럼요.


원문: Where the Goblins Came From

관련 글