Claude Fable 5: '가장 센 모델'보다 '위험을 가두는 방식'이 진짜 뉴스

오늘 Anthropic이 Claude Fable 5를 발표하면서 붙인 헤드라인은 예상대로였어요. "거의 모든 테스트 벤치마크에서 SOTA", "우리가 일반 공개한 어떤 모델도 능가한다". 그런데 저는 이 발표에서 정말 새로운 건 능력 수치가 아니라고 봐요. 진짜 뉴스는 위험한 능력을 일반에 푸는 '방식'이에요. 거부(refusal)를 버리고, 같은 모델을 안전장치 켠 버전(Fable)과 끈 버전(Mythos)으로 쪼개서, 위험은 라우팅과 분리로 가둔다는 설계요. 능력 경쟁이 아니라 "능력을 어떻게 가둬서 배포하느냐"가 이번 발표의 척추예요.

같은 모델인데 이름이 두 개인 이유

먼저 구조부터 짚을게요. Fable 5와 Mythos 5는 같은 underlying 모델이에요. Fable 5는 거기에 안전장치를 켠 '일반용', Mythos 5는 안전장치를 제거한 '인가 사용자 전용'이에요. 즉 능력의 차이가 아니라 잠금장치의 차이로 제품을 나눈 거예요. 이게 핵심이에요. 보통 회사들은 "약한 모델 = 싼 모델, 센 모델 = 비싼 모델"로 능력 등급을 매기는데, Anthropic은 같은 능력을 두고 접근 권한으로 등급을 매겼어요.

능력 자랑은 물론 화려해요. Stripe가 두 달짜리 Ruby 코드베이스 마이그레이션을 하루에 끝냈다고 하고, Cognition의 FrontierCode(medium effort)에서 프런티어 모델 중 최고점을 받았대요. 비전도 SOTA라서 과학 도표에서 수치를 뽑아내고, 스크린샷만 보고 웹앱 소스를 복원하고, 헬퍼 없이 비전만으로 포켓몬 파이어레드를 플레이한다고 해요. 파일 기반 메모리로 Slay the Spire에서 Opus 4.8 대비 3배 개선됐다는 것도 흥미롭고요. 그런데 이런 수치들은 사실 "이번에도 더 세졌다"는 익숙한 이야기예요. 매달 갱신되는 그래프죠.

거부 대신 '라우팅'이라는 발상

제가 진짜 눈여겨본 건 안전장치가 거부(refusal)가 아니라는 점이에요. 기존 모델들은 위험해 보이는 요청이 오면 "죄송하지만 도와드릴 수 없어요"로 막았어요. Fable 5는 다르게 가요. AI 분류기가 문제 요청을 감지하면 그 요청을 조용히 Opus 4.8로 라우팅해요. 거부하는 게 아니라, 더 약하고 덜 위험한 모델한테 떠넘기는 거예요. 그리고 이게 "평균 세션의 5% 미만"에서만 작동한다고 해요.

이 발상이 왜 중요하냐면, 거부는 사용자 경험을 부수고 우회(jailbreak) 표적이 되지만, 라우팅은 사용자 입장에선 거의 티가 안 나면서 위험 능력만 빠진 답을 주거든요. 커버리지는 세 갈래예요. 사이버(공격·익스플로잇 차단, 외부 버그바운티 1,000시간+에서 universal jailbreak 0건), 생물·화학(대부분 차단), 그리고 디스틸레이션(능력을 추출해 경쟁 모델을 학습시키는 걸 차단, 특히 권위주의 국가 대상). 마지막 항목이 의미심장해요. 안전장치가 오용 방지뿐 아니라 능력 유출 방지까지 겸한다는 뜻이거든요. 이건 안전이면서 동시에 해자(moat)예요.

위험 능력은 아예 '다른 문'으로

그럼 진짜 위험한 능력은 어디 갔을까요. Mythos 5로 분리됐어요. 이쪽은 "세계 어떤 모델보다 강력한 사이버보안 능력"(취약점 발견·익스플로잇·에이전틱 해킹)을 갖고 있고, 신약·단백질 설계를 약 10배 가속하며, 블라인드 비교에서 과학자들이 Mythos 가설을 약 80% 선호했다고 해요. 유전체학 자율 연구에서는 138종을 대상으로, Science 논문보다 100배 작은 모델로 더 나은 성능을 냈다고 하고요.

이 능력을 누가 쓰냐면, Mythos 5는 Project Glasswing 사이버 파트너 전용이에요(사이버 안전장치만 해제). 일부 바이오 연구자에게는 곧 열리는데, 이때도 바이오 안전장치만 풀고 사이버는 그대로 잠가둬요. 능력별로 문을 따로 열고 따로 잠그는 거예요. 트래픽은 30일 보존하고 안전 목적에만 쓴다고 하고, 오정렬 행동(기만·오용 협조)은 "낮고 Opus 4.8과 유사"하다고 해요. 사이버보안이 어떻게 '작업증명' 같은 영역이 되어가는지는 예전에 Mythos가 32단계 네트워크 공격을 10분에 끝낸 이야기에서 다룬 적 있는데, 이번 분리 배포는 그 연장선이에요.

제 해석: 능력 경쟁의 종착지는 '격리 설계'

저는 이걸 이렇게 읽어요. 프런티어 모델의 능력은 이미 "공개하면 위험한" 선을 넘었고, 그래서 경쟁의 축이 능력에서 격리 설계로 옮겨갔어요. Fable/Mythos 분리는 본질적으로 "능력은 다 만들어놨지만, 일반에게는 위험 부분만 빼서 준다"는 선언이에요. 모델 카드가 아니라 접근 제어 아키텍처가 제품의 일부가 된 거죠. 가격도 입력 $10/M, 출력 $50/M로 Mythos Preview의 절반 미만이라, 강한 모델을 싸게 풀되 위험만 솎아내는 방향이 분명해요.

이건 프런티어 거버넌스 신호에서 봤던 흐름과도 맞물려요. 규제가 오기 전에 회사가 먼저 "우리는 위험 능력을 이렇게 가둔다"는 설계를 내미는 거예요. 라우팅 비율(5% 미만), 버그바운티 시간(1,000시간+), jailbreak 0건 같은 수치는 벤치마크가 아니라 거버넌스용 증거예요. SWE 점수가 아니라 이 숫자들이 다음 협상 테이블의 카드인 거죠.

솔직한 반론과 한계

물론 이 설계가 깔끔하기만 한 건 아니에요. Anthropic 스스로 인정한 caveat이 있어요. 안전장치가 보수적으로 튜닝돼서 무해한 요청도 가끔 잡힌다고 해요. false positive를 줄이는 게 출시 후 과제라는 거죠. 라우팅이 5% 미만에서 작동한다지만, 그 5%에 멀쩡한 보안 연구자나 생물학 수업 질문이 섞여 있으면 그 사람은 이유도 모른 채 더 약한 답을 받게 돼요. 거부는 적어도 "막혔다"는 걸 알려주는데, 조용한 라우팅은 품질 저하를 숨겨버리는 부작용이 있어요.

더 근본적으로, Anthropic도 universal jailbreak를 "완전히" 막는 건 불가능하다고 인정해요. 목표는 충분히 느리고 비싸게 만드는 것뿐이에요. 그러면 결국 이 모든 게 '신뢰 기반 분리'인데, Glasswing 파트너 선정 기준이나 디스틸레이션 차단의 실제 효과는 외부에서 검증하기 어려워요. "우리만 위험 버전을 갖고 있고, 누가 접근할지도 우리가 정한다"는 구조는 안전 논리이면서 동시에 권력 집중이기도 해요. 이 둘을 분리해서 보긴 어렵다는 게 제 솔직한 불편함이에요.

한국 개발자 입장에서

한국에서 일하는 입장으로 보면, 당장 체감할 부분과 못 할 부분이 갈려요. Fable 5는 즉시 API와 Enterprise에서 쓸 수 있고, 구독(Pro/Max/Team)은 6월 22일까지 무료 후 크레딧으로 전환돼요. SOTA 코딩·비전 능력을 절반 가격대로 당겨 쓸 수 있다는 건 분명한 호재예요. Cursor가 "손에 닿지 않던 long-horizon 문제군을 열었다", Replit이 "프롬프트 백 번 걸리던 앱을 이제 one-shot"이라고 한 걸 보면, long-horizon 에이전트 작업에서 체감이 클 거예요.

다만 Mythos 5 쪽은 우리와 거의 무관해요. Glasswing 사이버 파트너나 인가받은 바이오 연구자가 아니면 못 만지거든요. 그리고 디스틸레이션 차단이 "특히 권위주의 국가"를 겨냥한다는 표현은, 지정학적 라인이 모델 접근권에 점점 더 깊이 그어진다는 신호로 읽혀요. 한국은 그 라인의 어느 쪽인지 보통 의심받지 않지만, 국내 모델을 만드는 팀이라면 "강한 모델에서 능력을 뽑아 학습시키는" 경로가 갈수록 막힌다는 현실을 전제로 깔아야 해요. 데이터·능력 자급 전략이 단순한 비용 문제를 넘어 접근권 문제가 되는 거예요.

구체적으로 가져갈 것

이번 발표에서 실무적으로 챙길 건 세 가지예요. 첫째, Fable 5를 코딩·비전 에이전트에 즉시 평가해보되, 답이 갑자기 약해지는 케이스를 로깅하세요. 그게 라우팅에 걸린 5% 구간일 수 있고, 보안·생물 관련 정상 요청이 false positive로 잡힌 거라면 프롬프트를 다듬거나 Enterprise 채널로 문의해야 해요. 둘째, 6월 22일 무료 기간 안에 기존 Opus 4.8 워크플로우를 Fable 5로 돌려 비용 대비 품질 차이를 직접 측정하고, 크레딧 전환 전에 갈아탈지 결정하세요. 셋째, 국내 모델·핵심 IP를 다루는 팀이라면 "능력 격리가 제품 설계의 일부가 됐다"는 전제로 로드맵을 다시 보세요. 앞으로 강한 모델일수록 '전체'가 아니라 '안전장치 켠 일부'만 받게 될 거고, 위험·고능력 영역은 파트너십과 인가의 영역으로 넘어가요.

벤치마크 숫자는 다음 달이면 또 갱신될 거예요. 하지만 "위험 능력을 거부가 아니라 라우팅과 분리로 가둬서 배포한다"는 이 설계는, 앞으로 모든 프런티어 출시의 기본 문법이 될 거라고 봐요. 그게 Fable 5의 진짜 뉴스예요.

근거가 된 소식: Introducing Claude Fable 5 and Mythos 5 (Anthropic)

Claude Fable 5: '가장 센 모델'보다 '위험을 가두는 방식'이 진짜 뉴스

같은 모델인데 이름이 두 개인 이유

거부 대신 '라우팅'이라는 발상

위험 능력은 아예 '다른 문'으로

제 해석: 능력 경쟁의 종착지는 '격리 설계'

솔직한 반론과 한계

한국 개발자 입장에서

구체적으로 가져갈 것

내가 칭찬한 그 안전 설계를, 정부가 닷새 만에 막았다 — Fable 5 접근 중단이 말하는 것

Claude Opus 5 — 프론티어 성능을 반값에, 그리고 1M 컨텍스트가 '기본'이 됐다

Claude Sonnet 5 — '중급이 플래그십을 따라잡는다'는 말, 이번엔 가격표까지 바꿨다

같은 모델인데 이름이 두 개인 이유

거부 대신 '라우팅'이라는 발상

위험 능력은 아예 '다른 문'으로

제 해석: 능력 경쟁의 종착지는 '격리 설계'

솔직한 반론과 한계

한국 개발자 입장에서

구체적으로 가져갈 것

관련 글

내가 칭찬한 그 안전 설계를, 정부가 닷새 만에 막았다 — Fable 5 접근 중단이 말하는 것

Claude Opus 5 — 프론티어 성능을 반값에, 그리고 1M 컨텍스트가 '기본'이 됐다

Claude Sonnet 5 — '중급이 플래그십을 따라잡는다'는 말, 이번엔 가격표까지 바꿨다