Anthropic, Vercept 인수: Claude의 컴퓨터 사용 능력 강화
안녕하세요, Tom입니다.
AI가 컴퓨터를 사용한다는 게 무슨 의미일까요?
단순히 코드를 실행하는 게 아닙니다.- 브라우저 열어서 폼 작성하고
- 스프레드시트에서 데이터 분석하고
- 여러 탭 오가며 정보 종합하는 것
사람이 키보드와 마우스로 하는 모든 일입니다.
Anthropic이 Vercept를 인수한 이유가 바로 이것입니다.
Vercept는 누구인가?
핵심 팀
- Kiana Ehsani — Computer Vision 전문가
- Luca Weihs — AI Perception 연구자
- Ross Girshick — Facebook AI Research 출신
창립 배경
"AI를 정말 유용하게 만들려면, 복잡한 인식(perception)과 인터랙션(interaction) 문제를 해결해야 한다."
Vercept는 처음부터 "AI가 사람처럼 소프트웨어를 보고 조작하는 방법"에 집중했습니다.
Anthropic과의 공통점
- AI 시스템이 실제 소프트웨어 안에서 작동하도록
- 코드만으로는 불가능한 복잡한 작업 해결
- 안전성과 엄격함을 최우선으로
Claude의 컴퓨터 사용 능력, 얼마나 좋아졌나?
OSWorld 벤치마크
OSWorld는 AI 컴퓨터 사용 능력을 측정하는 표준 평가입니다.
Claude의 발전:| 시기 | 모델 | OSWorld 점수 | 변화 |
|---|---|---|---|
| 2024년 말 | 초기 버전 | < 15% | 기준 |
| 2026년 2월 | Sonnet 4.6 | 72.5% | 4.8배 향상 |
인간 수준에 근접
작업: "여러 탭에 걸친 복잡한 스프레드시트 작업 완료"
Claude Sonnet 4.6: 72.5% 성공률
인간 평균: ~80%
사실상 인간에 가까운 성능입니다.
컴퓨터 사용, 왜 어려운가?
1. 시각적 이해
스크린샷 → AI 분석
"이 버튼을 클릭해야 하는구나"
- UI 요소 구별
- 동적으로 변하는 레이아웃
- 접근성 정보 부족
2. 정확한 조작
클릭 좌표: (342, 567)
→ 1픽셀 실수 → 잘못된 버튼 클릭
- 픽셀 단위 정확도
- 타이밍 (로딩 대기)
- 멀티 스텝 시퀀스
3. 컨텍스트 유지
탭 1: 데이터 조회
탭 2: 계산
탭 3: 결과 입력
→ 3단계를 기억하고 연결
- 여러 창 관리
- 작업 순서 기억
- 중간 결과 추적
Vercept 팀이 풀 문제들
문제 1: "무엇을 봐야 하는가?"
현재:- 전체 스크린을 이미지로 분석
- 중요한 요소와 배경 구분 어려움
- Selective Attention: 중요한 UI 요소 자동 탐지
- Hierarchical Understanding: 화면 구조를 계층적으로 이해
문제 2: "어떻게 조작하는가?"
현재:- 고정된 좌표로 클릭
- 레이아웃 변경 시 실패
- Semantic Interaction: 의미 기반 조작
- "Submit 버튼" → 위치와 무관하게 찾아서 클릭
- Robust Localization: UI 변화에 강건한 요소 추적
문제 3: "왜 실패했는가?"
현재:- 실패 원인 파악 어려움
- 같은 실수 반복
- Failure Analysis: 실패 패턴 학습
- Adaptive Recovery: 실패 시 대안 시도
실전 활용 시나리오
시나리오 1: 복잡한 폼 작성
사용자: "이 보험 청구 양식 작성해줘"
Claude:
1. 여러 탭 열어서 필요한 정보 수집
2. 각 필드 정확히 입력
3. 첨부 파일 업로드
4. 유효성 검사 통과
5. 제출 전 검토
- 동적 폼 필드 인식
- 복잡한 입력 규칙 이해
- 에러 메시지 대응
시나리오 2: 데이터 분석 자동화
사용자: "이 Excel 파일 분석하고 리포트 만들어줘"
Claude:
1. Excel 열기
2. 데이터 범위 자동 탐지
3. 피벗 테이블 생성
4. 차트 추가
5. PowerPoint로 결과 정리
- 스프레드시트 구조 이해
- 데이터 패턴 인식
- 멀티 앱 워크플로우
시나리오 3: 웹 리서치
사용자: "경쟁사 가격 조사해줘"
Claude:
1. 10개 사이트 방문
2. 가격 정보 추출
3. 스프레드시트에 정리
4. 요약 리포트 생성
- 동적 웹페이지 네비게이션
- 텍스트와 이미지에서 정보 추출
- 구조화된 데이터 생성
Bun에 이은 두 번째 인수
2025년: Bun 인수
- Bun: 초고속 JavaScript 런타임
- 목적: Claude Code의 실행 속도 향상
- 결과: $1B 매출 달성 기여
2026년: Vercept 인수
- Vercept: AI 비전 및 인터랙션
- 목적: 컴퓨터 사용 능력 강화
- 예상 결과: 더 넓은 자동화 가능
Anthropic의 인수 원칙
"우리가 찾는 팀은:
- 기술적 야망이 우리와 일치
- 우리 역량을 직접 향상
- 안전성과 엄격함을 공유"
앞으로의 계획
단기 (2026년)
- Vercept 팀 Anthropic 합류 완료
- Vercept 외부 제품 종료
- Claude 컴퓨터 사용 기능 추가 개선
중기 (2026-2027)
목표: OSWorld 95% 이상- 인간 수준 초과
- 더 복잡한 멀티 스텝 작업
- 실패 복구 능력 강화
장기 비전
"AI가 모든 소프트웨어를 사람처럼 사용"- IDE에서 코딩
- 디자인 툴로 UI 제작
- 데이터 분석 툴 활용
- 프로덕션 워크플로우 자동화
경쟁사 동향
OpenAI
- Codex Agent: 코드 중심 자동화
- 컴퓨터 사용 기능은 제한적
- Gemini with Extensions: 특정 앱 연동
- 범용 컴퓨터 사용은 미지원
Anthropic
- Claude Computer Use: 범용 컴퓨터 제어
- Vercept 인수로 리드 확대
개발자를 위한 의미
1. 더 적은 통합 작업
Before:# 각 API마다 별도 통합 필요
gmail_api.send()
sheets_api.update()
slack_api.post()# Claude가 UI로 직접 조작
claude.computer_use("""
1. Gmail 열어서 메일 보내고
2. Sheets에 기록하고
3. Slack에 알림
""")2. 레거시 소프트웨어 자동화
Before:- API 없는 구형 소프트웨어 → 자동화 불가능
- Claude가 UI로 직접 조작 가능
3. 복잡한 워크플로우
Before:- RPA 도구로 스크립팅
- 깨지기 쉬운 픽셀 좌표
- 자연어로 지시
- Claude가 적응적으로 실행
마무리하며
Vercept 인수는 Anthropic의 "AI가 진짜로 일하는 세상"을 향한 또 하나의 큰 걸음입니다.
핵심:- Claude 컴퓨터 사용: 15% → 72.5% (4.8배 향상)
- 인간 수준에 근접
- Vercept 팀으로 더 빠른 발전 예상
특히 복잡한 멀티 스텝 작업을 자동화하려는 팀이라면, Claude의 컴퓨터 사용 기능이 게임 체인저가 될 것 같습니다.
여러분은 AI가 어떤 작업을 대신하길 원하시나요?
이 글은 Anthropic 공식 블로그 포스트를 정리한 것입니다. 원본은 여기에서 확인할 수 있습니다.
Claude Code, OpenCode 같은 AI 코딩 도구를 직접 쓰면서 AI 업계의 변화를 개발자 관점에서 기록합니다. 단순 번역이 아니라 써본 경험과 해석을 함께 남기려고 해요.
관련 글
Anthropic, 한국 대표에 최기영 선임: 서울 오피스 개설과 인구 대비 3.5배 높은 Claude 사용률
Anthropic이 서울 오피스 개설을 앞두고 최기영 한국 대표를 선임했어요. 한국은 인구 대비 Claude 사용률이 3.5배 높은 시장이에요. 글로벌 영문 매체가 잘 안 다루는 이 소식을 한국 개발자 관점에서 정리했어요.
Claude Opus 4.8 출시: 4.7 대비 코드 결함 4배 감소, Fast 모드는 3배 저렴해졌다
Anthropic이 Opus 4.8을 내놨어요. 가격은 그대로지만 코드 신뢰성이 4배 좋아졌고, Fast 모드 비용이 3배 내려갔어요. 매일 Claude Code를 쓰는 입장에서 체감 포인트를 정리했어요.
Claude 사용량 한도 2배 인상 + SpaceX 컴퓨팅 파트너십
Anthropic이 Claude Code 사용량을 두 배로 늘리고, 피크 시간대 제한도 해제했어요. 여기에 SpaceX Colossus 1 데이터센터와 컴퓨팅 파트너십까지 — GPU 22만 개가 추가되는 거예요.