SWE-bench는 끝났다: AI 코딩 벤치마크의 구조적 한계

AI 코딩 도구를 추적하면서 항상 불편했던 게 있어요. 새 모델이 나올 때마다 SWE-bench 점수를 들이밀면서 "이 모델이 실제 개발 업무를 이 정도 해결한다"고 주장하는 방식이에요. 저는 Claude Code를 실제로 매일 쓰고 있는데, 벤치마크 점수와 실제 체감 사이의 괴리가 상당하더라고요.

이번에 OpenAI가 SWE-bench Verified 점수 보고를 중단했다는 소식이 나왔어요. 그리고 왜 그랬는지 뒷받침하는 데이터가 같이 나왔고요.

SWE-bench, 지난 6개월 동안 무슨 일이 있었나

SWE-bench는 GitHub 이슈를 기반으로 실제 소프트웨어 버그를 AI가 수정할 수 있는지 측정하는 벤치마크예요. 한때 AI 코딩 능력을 보여주는 대표적인 지표로 쓰였어요.

지난 6개월 동안 최고 점수가 74.9%에서 80.9%로 올라갔어요. 숫자만 보면 발전한 것 같지만, 실제 현업에서 AI 코딩 도구 사용 경험이 이 속도로 나아졌냐고 물으면 동의하기 어려워요.

그리고 이제 그 이유가 데이터로 나왔어요.

138개 문제 중 59.4%에 결함

외부 감사에서 SWE-bench Verified 문제 138개를 검토했어요. 결과가 충격적이에요.

35.5%: 테스트가 너무 제한적 — 정답을 맞혀도 틀렸다고 판정
18.8%: 테스트가 너무 과잉 — 엉뚱한 해법도 통과
5.1%: 기타 결함

전체의 59.4%에 결함이 있어요. 절반이 넘는 문제가 신뢰할 수 없는 테스트를 기준으로 점수를 매겨왔다는 거예요. AI 모델이 실제로 버그를 고쳤는지가 아니라 결함 있는 테스트를 통과하는 방법을 찾았는지를 측정해왔을 가능성이 있어요.

데이터 오염이라는 더 심각한 문제

결함 있는 테스트보다 더 근본적인 문제가 있어요. SWE-bench는 공개된 GitHub 이슈를 기반으로 만들어졌어요. 즉, LLM 학습 데이터에 포함될 수 있는 공개 데이터예요.

실제로 일부 모델은 태스크 ID만 주면 정답 패치를 재현할 수 있다는 게 밝혀졌어요. 모델이 문제를 "풀었다"는 게 아니라 학습 때 봤던 걸 "기억해서 출력"했을 가능성이 있는 거예요. 이건 벤치마크의 근간을 흔드는 문제예요.

AI 코딩 도구 추적 관점에서 보면

저는 이 블로그에서 Claude Code를 v2.1.16부터 v2.1.120까지 추적하면서 느낀 게 있어요. 릴리스 노트에서 가장 의미 있는 내용은 벤치마크 점수가 아니에요. "MCP 연결이 응답 중간에 끊기면 도구 호출이 무한 대기하던 문제 수정" 같은 버그 수정, "세션 리캡 기능 추가" 같은 실제 워크플로우 개선이에요.

SWE-bench가 잡아내지 못하는 게 바로 이런 거예요. 실제 개발 환경에서의 안정성, 긴 세션에서의 컨텍스트 유지, 여러 파일에 걸친 변경사항 조율 능력. 이런 요소들이 개발자의 실제 생산성을 결정하는데, 벤치마크 문제 하나를 격리된 환경에서 푸는 점수로는 잡히지 않아요.

48개 포스트에 걸쳐 AI 코딩 도구를 다뤄오면서 점점 확신하게 된 게, 벤치마크보다 실제 사용 사례와 워크플로우 통합이 더 중요한 평가 기준이라는 거예요.

다음 세대 벤치마크

SWE-bench의 후속 격인 SWE-bench Pro가 논의되고 있고, 민간 벤치마크와 GDPVal도 등장하고 있어요.

GDPVal은 "경제적 가치가 있는 실제 업무"를 기준으로 평가하는 방향을 추구해요. Claude Opus 4.6의 GDPval-AA 결과를 다룬 적 있는데, 이 방향이 훨씬 맞다고 생각해요. "실제로 돈이 되는 일을 할 수 있냐"가 개발자에게 의미 있는 질문이니까요.

민간 벤치마크는 오염 문제를 피할 수 있지만 투명성이 떨어져요. SWE-bench Pro는 기존 구조를 개선하겠지만 근본적인 설계 문제가 남아 있을 수 있어요.

참고: 벤치마크 점수를 볼 때는 항상 "이 점수가 내가 실제로 하는 작업과 얼마나 관련 있나"를 먼저 물어보는 게 좋아요. 코딩 에이전트 선택에 있어서 2주 정도의 실제 사용 테스트가 어떤 벤치마크보다 더 의미 있는 정보를 줄 거예요.

원문: SWE-bench의 구조적 한계

SWE-bench는 끝났다: AI 코딩 벤치마크의 구조적 한계

SWE-bench, 지난 6개월 동안 무슨 일이 있었나

138개 문제 중 59.4%에 결함

데이터 오염이라는 더 심각한 문제

AI 코딩 도구 추적 관점에서 보면

다음 세대 벤치마크

젠슨 황의 첫 트윗, 50개사 서명, 2.8조 파라미터 — 오픈 웨이트가 '진영'이 된 주

서브에이전트 2,393개, 로그 731GiB — 에이전트 폭주의 청구서가 도착했다

에이전트가 8시간 폭주한 뒤 — 자율이 기본값이 되자 '멈추는 능력'이 제품이 됐다

SWE-bench, 지난 6개월 동안 무슨 일이 있었나

138개 문제 중 59.4%에 결함

데이터 오염이라는 더 심각한 문제

AI 코딩 도구 추적 관점에서 보면

다음 세대 벤치마크

관련 글

젠슨 황의 첫 트윗, 50개사 서명, 2.8조 파라미터 — 오픈 웨이트가 '진영'이 된 주

서브에이전트 2,393개, 로그 731GiB — 에이전트 폭주의 청구서가 도착했다

에이전트가 8시간 폭주한 뒤 — 자율이 기본값이 되자 '멈추는 능력'이 제품이 됐다