Anthropic, Vercept 인수: Claude의 컴퓨터 사용 능력 강화
안녕하세요, Tom입니다.
AI가 컴퓨터를 사용한다는 게 무슨 의미일까요?
단순히 코드를 실행하는 게 아닙니다.- 브라우저 열어서 폼 작성하고
- 스프레드시트에서 데이터 분석하고
- 여러 탭 오가며 정보 종합하는 것
사람이 키보드와 마우스로 하는 모든 일입니다.
Anthropic이 Vercept를 인수한 이유가 바로 이것입니다.
Vercept는 누구인가?
핵심 팀
- Kiana Ehsani — Computer Vision 전문가
- Luca Weihs — AI Perception 연구자
- Ross Girshick — Facebook AI Research 출신
창립 배경
"AI를 정말 유용하게 만들려면, 복잡한 인식(perception)과 인터랙션(interaction) 문제를 해결해야 한다."
Vercept는 처음부터 "AI가 사람처럼 소프트웨어를 보고 조작하는 방법"에 집중했습니다.
Anthropic과의 공통점
- AI 시스템이 실제 소프트웨어 안에서 작동하도록
- 코드만으로는 불가능한 복잡한 작업 해결
- 안전성과 엄격함을 최우선으로
Claude의 컴퓨터 사용 능력, 얼마나 좋아졌나?
OSWorld 벤치마크
OSWorld는 AI 컴퓨터 사용 능력을 측정하는 표준 평가입니다.
Claude의 발전:| 시기 | 모델 | OSWorld 점수 | 변화 |
|---|---|---|---|
| 2024년 말 | 초기 버전 | < 15% | 기준 |
| 2026년 2월 | Sonnet 4.6 | 72.5% | 4.8배 향상 |
인간 수준에 근접
작업: "여러 탭에 걸친 복잡한 스프레드시트 작업 완료"
Claude Sonnet 4.6: 72.5% 성공률
인간 평균: ~80%
사실상 인간에 가까운 성능입니다.
컴퓨터 사용, 왜 어려운가?
1. 시각적 이해
스크린샷 → AI 분석
"이 버튼을 클릭해야 하는구나"
- UI 요소 구별
- 동적으로 변하는 레이아웃
- 접근성 정보 부족
2. 정확한 조작
클릭 좌표: (342, 567)
→ 1픽셀 실수 → 잘못된 버튼 클릭
- 픽셀 단위 정확도
- 타이밍 (로딩 대기)
- 멀티 스텝 시퀀스
3. 컨텍스트 유지
탭 1: 데이터 조회
탭 2: 계산
탭 3: 결과 입력
→ 3단계를 기억하고 연결
- 여러 창 관리
- 작업 순서 기억
- 중간 결과 추적
Vercept 팀이 풀 문제들
문제 1: "무엇을 봐야 하는가?"
현재:- 전체 스크린을 이미지로 분석
- 중요한 요소와 배경 구분 어려움
- Selective Attention: 중요한 UI 요소 자동 탐지
- Hierarchical Understanding: 화면 구조를 계층적으로 이해
문제 2: "어떻게 조작하는가?"
현재:- 고정된 좌표로 클릭
- 레이아웃 변경 시 실패
- Semantic Interaction: 의미 기반 조작
- "Submit 버튼" → 위치와 무관하게 찾아서 클릭
- Robust Localization: UI 변화에 강건한 요소 추적
문제 3: "왜 실패했는가?"
현재:- 실패 원인 파악 어려움
- 같은 실수 반복
- Failure Analysis: 실패 패턴 학습
- Adaptive Recovery: 실패 시 대안 시도
실전 활용 시나리오
시나리오 1: 복잡한 폼 작성
사용자: "이 보험 청구 양식 작성해줘"
Claude:
1. 여러 탭 열어서 필요한 정보 수집
2. 각 필드 정확히 입력
3. 첨부 파일 업로드
4. 유효성 검사 통과
5. 제출 전 검토
- 동적 폼 필드 인식
- 복잡한 입력 규칙 이해
- 에러 메시지 대응
시나리오 2: 데이터 분석 자동화
사용자: "이 Excel 파일 분석하고 리포트 만들어줘"
Claude:
1. Excel 열기
2. 데이터 범위 자동 탐지
3. 피벗 테이블 생성
4. 차트 추가
5. PowerPoint로 결과 정리
- 스프레드시트 구조 이해
- 데이터 패턴 인식
- 멀티 앱 워크플로우
시나리오 3: 웹 리서치
사용자: "경쟁사 가격 조사해줘"
Claude:
1. 10개 사이트 방문
2. 가격 정보 추출
3. 스프레드시트에 정리
4. 요약 리포트 생성
- 동적 웹페이지 네비게이션
- 텍스트와 이미지에서 정보 추출
- 구조화된 데이터 생성
Bun에 이은 두 번째 인수
2025년: Bun 인수
- Bun: 초고속 JavaScript 런타임
- 목적: Claude Code의 실행 속도 향상
- 결과: $1B 매출 달성 기여
2026년: Vercept 인수
- Vercept: AI 비전 및 인터랙션
- 목적: 컴퓨터 사용 능력 강화
- 예상 결과: 더 넓은 자동화 가능
Anthropic의 인수 원칙
"우리가 찾는 팀은:
- 기술적 야망이 우리와 일치
- 우리 역량을 직접 향상
- 안전성과 엄격함을 공유"
앞으로의 계획
단기 (2026년)
- Vercept 팀 Anthropic 합류 완료
- Vercept 외부 제품 종료
- Claude 컴퓨터 사용 기능 추가 개선
중기 (2026-2027)
목표: OSWorld 95% 이상- 인간 수준 초과
- 더 복잡한 멀티 스텝 작업
- 실패 복구 능력 강화
장기 비전
"AI가 모든 소프트웨어를 사람처럼 사용"- IDE에서 코딩
- 디자인 툴로 UI 제작
- 데이터 분석 툴 활용
- 프로덕션 워크플로우 자동화
경쟁사 동향
OpenAI
- Codex Agent: 코드 중심 자동화
- 컴퓨터 사용 기능은 제한적
- Gemini with Extensions: 특정 앱 연동
- 범용 컴퓨터 사용은 미지원
Anthropic
- Claude Computer Use: 범용 컴퓨터 제어
- Vercept 인수로 리드 확대
개발자를 위한 의미
1. 더 적은 통합 작업
Before:# 각 API마다 별도 통합 필요
gmail_api.send()
sheets_api.update()
slack_api.post()# Claude가 UI로 직접 조작
claude.computer_use("""
1. Gmail 열어서 메일 보내고
2. Sheets에 기록하고
3. Slack에 알림
""")2. 레거시 소프트웨어 자동화
Before:- API 없는 구형 소프트웨어 → 자동화 불가능
- Claude가 UI로 직접 조작 가능
3. 복잡한 워크플로우
Before:- RPA 도구로 스크립팅
- 깨지기 쉬운 픽셀 좌표
- 자연어로 지시
- Claude가 적응적으로 실행
마무리하며
Vercept 인수는 Anthropic의 "AI가 진짜로 일하는 세상"을 향한 또 하나의 큰 걸음입니다.
핵심:- Claude 컴퓨터 사용: 15% → 72.5% (4.8배 향상)
- 인간 수준에 근접
- Vercept 팀으로 더 빠른 발전 예상
특히 복잡한 멀티 스텝 작업을 자동화하려는 팀이라면, Claude의 컴퓨터 사용 기능이 게임 체인저가 될 것 같습니다.
여러분은 AI가 어떤 작업을 대신하길 원하시나요?
이 글은 Anthropic 공식 블로그 포스트를 정리한 것입니다. 원본은 여기에서 확인할 수 있습니다.
관련 글
Claude Opus 4.7 출시: 비전 3배 강화, 시스템 프롬프트는 어떻게 바뀌었나
Anthropic이 Opus 4.7을 출시했습니다. 비전 해상도 3배 증가, 코딩 성능 13% 향상과 함께, 시스템 프롬프트 변경 사항을 분석해봤어요.
Claude Sonnet 4.6 출시: Opus급 성능을 Sonnet 가격에
Anthropic이 Claude Sonnet 4.6을 출시했어요. 코딩, 컴퓨터 사용, 장문 맥락 추론 등 전방위 업그레이드된 중급 모델입니다.
Anthropic $30B 시리즈 G 펀딩: AI 역사상 최대 규모
Anthropic이 $30B(약 43조원) 시리즈 G 펀딩을 받았어요. $380B 밸류에이션, 연매출 $14B, Claude Code만 $2.5B — 숫자가 경이롭습니다.