Claude Opus 4.6 출시: Anthropic의 가장 강력한 모델이 왔어요
안녕하세요, Tom입니다.
Claude Opus 4.6이 출시됐습니다! Anthropic의 가장 스마트한 모델이 업그레이드됐는데, 벤치마크 결과가 정말 인상적이에요. 사실 제가 지금 이 글을 쓰는 데도 Opus 4.6을 쓰고 있어요 😄
무엇이 좋아졌나요?
코딩 능력 대폭 향상 💻
Opus 4.6은 전작 대비 코딩 능력이 눈에 띄게 개선됐어요:
- 더 신중하게 계획
- 더 큰 코드베이스에서 안정적으로 작동
- 자기 실수를 스스로 잡아내는 코드 리뷰 능력 향상
- 에이전틱 태스크를 더 오래 지속
🎯 핵심 벤치마크:
| 벤치마크 | 의미 | 결과 |
|---|---|---|
| Terminal-Bench 2.0 | 에이전틱 코딩 | 1위 |
| Humanity's Last Exam | 다학제 추론 | 1위 |
| GDPval-AA | 경제적 가치 있는 업무 | GPT-5.2 대비 +144 Elo |
| BrowseComp | 정보 검색 | 1위 |
| SWE-bench Verified | 소프트웨어 엔지니어링 | 상위권 |
1M 토큰 컨텍스트 윈도우 (베타) 📚
Opus 클래스 최초로 100만 토큰 컨텍스트를 지원해요. 이전 모델들은 200K가 한계였는데, 5배나 늘어난 거죠.
💡 Context rot 개선: MRCR v2 (8-needle 1M 변형) 벤치마크에서:
- Opus 4.6: 76%
- Sonnet 4.5: 18.5%
긴 문서를 넣어도 앞부분 정보를 잘 기억한다는 뜻이에요.
적응형 사고 (Adaptive Thinking)
이전에는 extended thinking을 켜거나 끄는 이진 선택이었어요. 이제는 Claude가 스스로 판단해서 깊은 사고가 필요할 때만 thinking을 활성화합니다.
Effort 컨트롤
4단계 effort 레벨이 생겼어요:
| 레벨 | 용도 |
|---|---|
| low | 빠른 응답, 단순 작업 |
| medium | 일반적인 작업 |
| high (기본) | 복잡한 작업, adaptive thinking 활성 |
| max | 최고 품질, 어려운 문제 |
⚠️ 팁: Opus 4.6이 과하게 생각하는 것 같으면 /effort medium으로 조절하세요. 기본값이 high라 단순한 작업에는 과할 수 있어요.
Claude Code 에이전트 팀 🤖
Claude Code에서 에이전트 팀 기능이 리서치 프리뷰로 추가됐어요! 여러 에이전트가 병렬로 작업하고 자율 조정합니다.
💡 적합한 사용 사례:
- 코드베이스 리뷰
- 독립적인 읽기 위주 작업
- Shift+Up/Down 또는 tmux로 서브에이전트 직접 조작 가능
컨텍스트 압축 (Compaction)
긴 대화가 컨텍스트 윈도우에 닿으면, Claude가 자동으로 이전 컨텍스트를 요약해서 대체합니다. 에이전틱 태스크에서 한계에 부딪히지 않고 더 오래 작업할 수 있어요.
안전성
Opus 4.6은 성능 향상과 함께 안전성도 유지했어요:
- 잘못된 행동(기만, 아부, 오용 협력) 비율이 Opus 4.5 수준
- 과잉 거부(over-refusal) 비율은 역대 최저 — 안전한 질문에 "못 해요"라고 하는 경우가 줄었다는 뜻
- 사이버보안 능력 강화에 맞춘 6개의 새로운 보안 프로브 도입
가격
가격은 기존 Opus와 동일:
| 가격 (1M 토큰당) | |
|---|---|
| Input | $5 |
| Output | $25 |
| Input (200K+ 프리미엄) | $10 |
| Output (200K+ 프리미엄) | $37.50 |
업계 반응
공식 발표에 포함된 파트너 반응이 인상적이에요:
GitHub: "복잡한 멀티스텝 코딩 작업에서 진짜 차이가 느껴진다" Cursor: "장기 실행 태스크에서 새로운 프론티어" Replit: "에이전틱 플래닝에서 거대한 도약" SentinelOne: "수백만 줄 코드베이스 마이그레이션을 시니어 엔지니어처럼 해냈다"
총평
Claude Opus 4.6은 현 시점 가장 강력한 AI 모델 중 하나예요. 특히 에이전틱 코딩, 장문 컨텍스트, 추론 능력에서 인상적인 결과를 보여줍니다.
🎯 제가 실제 사용하면서 느낀 점:
- 코드 리뷰가 훨씬 정확해졌어요 — 이전에 놓치던 엣지케이스를 잡아냄
- 긴 세션에서 컨텍스트를 잃지 않는 느낌
- adaptive thinking 덕분에 단순한 작업은 빠르게, 복잡한 작업은 깊게 처리
💰 비용 팁: 단순 작업은 Sonnet, 복잡한 작업은 Opus로 구분해서 쓰면 비용 효율적이에요. /effort 컨트롤도 적극 활용하세요.