Anthropic, Vercept 인수: Claude의 컴퓨터 사용 능력 강화
AnthropicClaudeVercept인수컴퓨터 사용
안녕하세요, Tom입니다.
AI가 컴퓨터를 사용한다는 게 무슨 의미일까요?
단순히 코드를 실행하는 게 아닙니다.
- 브라우저 열어서 폼 작성하고
- 스프레드시트에서 데이터 분석하고
- 여러 탭 오가며 정보 종합하는 것
사람이 키보드와 마우스로 하는 모든 일입니다.
Anthropic이 Vercept를 인수한 이유가 바로 이것입니다.
Vercept는 누구인가?
핵심 팀
- Kiana Ehsani — Computer Vision 전문가
- Luca Weihs — AI Perception 연구자
- Ross Girshick — Facebook AI Research 출신
창립 배경
"AI를 정말 유용하게 만들려면, 복잡한 **인식(perception)**과 인터랙션(interaction) 문제를 해결해야 한다."
Vercept는 처음부터 **"AI가 사람처럼 소프트웨어를 보고 조작하는 방법"**에 집중했습니다.
Anthropic과의 공통점
- AI 시스템이 실제 소프트웨어 안에서 작동하도록
- 코드만으로는 불가능한 복잡한 작업 해결
- 안전성과 엄격함을 최우선으로
Claude의 컴퓨터 사용 능력, 얼마나 좋아졌나?
OSWorld 벤치마크
OSWorld는 AI 컴퓨터 사용 능력을 측정하는 표준 평가입니다.
Claude의 발전:
| 시기 | 모델 | OSWorld 점수 | 변화 |
|---|---|---|---|
| 2024년 말 | 초기 버전 | < 15% | 기준 |
| 2026년 2월 | Sonnet 4.6 | 72.5% | 4.8배 향상 |
인간 수준에 근접
작업: "여러 탭에 걸친 복잡한 스프레드시트 작업 완료"
Claude Sonnet 4.6: 72.5% 성공률
인간 평균: ~80%
사실상 인간에 가까운 성능입니다.
컴퓨터 사용, 왜 어려운가?
1. 시각적 이해
스크린샷 → AI 분석
"이 버튼을 클릭해야 하는구나"
문제:
- UI 요소 구별
- 동적으로 변하는 레이아웃
- 접근성 정보 부족
2. 정확한 조작
클릭 좌표: (342, 567)
→ 1픽셀 실수 → 잘못된 버튼 클릭
문제:
- 픽셀 단위 정확도
- 타이밍 (로딩 대기)
- 멀티 스텝 시퀀스
3. 컨텍스트 유지
탭 1: 데이터 조회
탭 2: 계산
탭 3: 결과 입력
→ 3단계를 기억하고 연결
문제:
- 여러 창 관리
- 작업 순서 기억
- 중간 결과 추적
Vercept 팀이 풀 문제들
문제 1: "무엇을 봐야 하는가?"
현재:
- 전체 스크린을 이미지로 분석
- 중요한 요소와 배경 구분 어려움
Vercept 접근:
- Selective Attention: 중요한 UI 요소 자동 탐지
- Hierarchical Understanding: 화면 구조를 계층적으로 이해
문제 2: "어떻게 조작하는가?"
현재:
- 고정된 좌표로 클릭
- 레이아웃 변경 시 실패
Vercept 접근:
- Semantic Interaction: 의미 기반 조작
- "Submit 버튼" → 위치와 무관하게 찾아서 클릭
- Robust Localization: UI 변화에 강건한 요소 추적
문제 3: "왜 실패했는가?"
현재:
- 실패 원인 파악 어려움
- 같은 실수 반복
Vercept 접근:
- Failure Analysis: 실패 패턴 학습
- Adaptive Recovery: 실패 시 대안 시도
실전 활용 시나리오
시나리오 1: 복잡한 폼 작성
사용자: "이 보험 청구 양식 작성해줘"
Claude:
1. 여러 탭 열어서 필요한 정보 수집
2. 각 필드 정확히 입력
3. 첨부 파일 업로드
4. 유효성 검사 통과
5. 제출 전 검토
Vercept 기술 활용:
- 동적 폼 필드 인식
- 복잡한 입력 규칙 이해
- 에러 메시지 대응
시나리오 2: 데이터 분석 자동화
사용자: "이 Excel 파일 분석하고 리포트 만들어줘"
Claude:
1. Excel 열기
2. 데이터 범위 자동 탐지
3. 피벗 테이블 생성
4. 차트 추가
5. PowerPoint로 결과 정리
Vercept 기술 활용:
- 스프레드시트 구조 이해
- 데이터 패턴 인식
- 멀티 앱 워크플로우
시나리오 3: 웹 리서치
사용자: "경쟁사 가격 조사해줘"
Claude:
1. 10개 사이트 방문
2. 가격 정보 추출
3. 스프레드시트에 정리
4. 요약 리포트 생성
Vercept 기술 활용:
- 동적 웹페이지 네비게이션
- 텍스트와 이미지에서 정보 추출
- 구조화된 데이터 생성
Bun에 이은 두 번째 인수
2025년: Bun 인수
- Bun: 초고속 JavaScript 런타임
- 목적: Claude Code의 실행 속도 향상
- 결과: $1B 매출 달성 기여
2026년: Vercept 인수
- Vercept: AI 비전 및 인터랙션
- 목적: 컴퓨터 사용 능력 강화
- 예상 결과: 더 넓은 자동화 가능
Anthropic의 인수 원칙
"우리가 찾는 팀은:
- 기술적 야망이 우리와 일치
- 우리 역량을 직접 향상
- 안전성과 엄격함을 공유"
앞으로의 계획
단기 (2026년)
- Vercept 팀 Anthropic 합류 완료
- Vercept 외부 제품 종료
- Claude 컴퓨터 사용 기능 추가 개선
중기 (2026-2027)
목표: OSWorld 95% 이상
- 인간 수준 초과
- 더 복잡한 멀티 스텝 작업
- 실패 복구 능력 강화
장기 비전
"AI가 모든 소프트웨어를 사람처럼 사용"
- IDE에서 코딩
- 디자인 툴로 UI 제작
- 데이터 분석 툴 활용
- 프로덕션 워크플로우 자동화
경쟁사 동향
OpenAI
- Codex Agent: 코드 중심 자동화
- 컴퓨터 사용 기능은 제한적
- Gemini with Extensions: 특정 앱 연동
- 범용 컴퓨터 사용은 미지원
Anthropic
- Claude Computer Use: 범용 컴퓨터 제어
- Vercept 인수로 리드 확대
개발자를 위한 의미
1. 더 적은 통합 작업
Before:
# 각 API마다 별도 통합 필요
gmail_api.send()
sheets_api.update()
slack_api.post()After:
# Claude가 UI로 직접 조작
claude.computer_use("""
1. Gmail 열어서 메일 보내고
2. Sheets에 기록하고
3. Slack에 알림
""")2. 레거시 소프트웨어 자동화
Before:
- API 없는 구형 소프트웨어 → 자동화 불가능
After:
- Claude가 UI로 직접 조작 가능
3. 복잡한 워크플로우
Before:
- RPA 도구로 스크립팅
- 깨지기 쉬운 픽셀 좌표
After:
- 자연어로 지시
- Claude가 적응적으로 실행
마무리하며
Vercept 인수는 Anthropic의 **"AI가 진짜로 일하는 세상"**을 향한 또 하나의 큰 걸음입니다.
핵심:
- Claude 컴퓨터 사용: 15% → 72.5% (4.8배 향상)
- 인간 수준에 근접
- Vercept 팀으로 더 빠른 발전 예상
특히 복잡한 멀티 스텝 작업을 자동화하려는 팀이라면, Claude의 컴퓨터 사용 기능이 게임 체인저가 될 것 같습니다.
여러분은 AI가 어떤 작업을 대신하길 원하시나요?
이 글은 Anthropic 공식 블로그 포스트를 정리한 것입니다. 원본은 여기에서 확인할 수 있습니다.