Tag

SWE-bench 태그 글 모음

SWE-bench 태그가 포함된 글 1개를 한곳에서 볼 수 있습니다.

SWE-bench는 끝났다: AI 코딩 벤치마크의 구조적 한계

OpenAI도 SWE-bench Verified 점수 보고를 중단했습니다. 138개 문제 중 59.4%에 결함이 있고, 데이터 오염까지. AI 코딩 평가의 다음 단계를 살펴봤어요.