SWE-bench는 끝났다: AI 코딩 벤치마크의 구조적 한계OpenAI도 SWE-bench Verified 점수 보고를 중단했습니다. 138개 문제 중 59.4%에 결함이 있고, 데이터 오염까지. AI 코딩 평가의 다음 단계를 살펴봤어요.2026년 4월 27일AI개발도구