Anthropic, Vercept 인수: Claude의 컴퓨터 사용 능력 강화

Anthropic, Vercept 인수: Claude의 컴퓨터 사용 능력 강화

7분 읽기원문 보기
AnthropicClaudeVercept인수컴퓨터 사용

안녕하세요, Tom입니다.

AI가 컴퓨터를 사용한다는 게 무슨 의미일까요?

단순히 코드를 실행하는 게 아닙니다.

  • 브라우저 열어서 폼 작성하고
  • 스프레드시트에서 데이터 분석하고
  • 여러 탭 오가며 정보 종합하는 것

사람이 키보드와 마우스로 하는 모든 일입니다.

Anthropic이 Vercept를 인수한 이유가 바로 이것입니다.

Vercept는 누구인가?

핵심 팀

  • Kiana Ehsani — Computer Vision 전문가
  • Luca Weihs — AI Perception 연구자
  • Ross Girshick — Facebook AI Research 출신

창립 배경

"AI를 정말 유용하게 만들려면, 복잡한 **인식(perception)**과 인터랙션(interaction) 문제를 해결해야 한다."

Vercept는 처음부터 **"AI가 사람처럼 소프트웨어를 보고 조작하는 방법"**에 집중했습니다.

Anthropic과의 공통점

  • AI 시스템이 실제 소프트웨어 안에서 작동하도록
  • 코드만으로는 불가능한 복잡한 작업 해결
  • 안전성과 엄격함을 최우선으로

Claude의 컴퓨터 사용 능력, 얼마나 좋아졌나?

OSWorld 벤치마크

OSWorld는 AI 컴퓨터 사용 능력을 측정하는 표준 평가입니다.

Claude의 발전:

시기모델OSWorld 점수변화
2024년 말초기 버전< 15%기준
2026년 2월Sonnet 4.672.5%4.8배 향상

인간 수준에 근접

작업: "여러 탭에 걸친 복잡한 스프레드시트 작업 완료"

Claude Sonnet 4.6: 72.5% 성공률
인간 평균: ~80%

사실상 인간에 가까운 성능입니다.

컴퓨터 사용, 왜 어려운가?

1. 시각적 이해

스크린샷 → AI 분석
"이 버튼을 클릭해야 하는구나"

문제:

  • UI 요소 구별
  • 동적으로 변하는 레이아웃
  • 접근성 정보 부족

2. 정확한 조작

클릭 좌표: (342, 567)
→ 1픽셀 실수 → 잘못된 버튼 클릭

문제:

  • 픽셀 단위 정확도
  • 타이밍 (로딩 대기)
  • 멀티 스텝 시퀀스

3. 컨텍스트 유지

탭 1: 데이터 조회
탭 2: 계산
탭 3: 결과 입력
→ 3단계를 기억하고 연결

문제:

  • 여러 창 관리
  • 작업 순서 기억
  • 중간 결과 추적

Vercept 팀이 풀 문제들

문제 1: "무엇을 봐야 하는가?"

현재:

  • 전체 스크린을 이미지로 분석
  • 중요한 요소와 배경 구분 어려움

Vercept 접근:

  • Selective Attention: 중요한 UI 요소 자동 탐지
  • Hierarchical Understanding: 화면 구조를 계층적으로 이해

문제 2: "어떻게 조작하는가?"

현재:

  • 고정된 좌표로 클릭
  • 레이아웃 변경 시 실패

Vercept 접근:

  • Semantic Interaction: 의미 기반 조작
    • "Submit 버튼" → 위치와 무관하게 찾아서 클릭
  • Robust Localization: UI 변화에 강건한 요소 추적

문제 3: "왜 실패했는가?"

현재:

  • 실패 원인 파악 어려움
  • 같은 실수 반복

Vercept 접근:

  • Failure Analysis: 실패 패턴 학습
  • Adaptive Recovery: 실패 시 대안 시도

실전 활용 시나리오

시나리오 1: 복잡한 폼 작성

사용자: "이 보험 청구 양식 작성해줘"

Claude:
1. 여러 탭 열어서 필요한 정보 수집
2. 각 필드 정확히 입력
3. 첨부 파일 업로드
4. 유효성 검사 통과
5. 제출 전 검토

Vercept 기술 활용:

  • 동적 폼 필드 인식
  • 복잡한 입력 규칙 이해
  • 에러 메시지 대응

시나리오 2: 데이터 분석 자동화

사용자: "이 Excel 파일 분석하고 리포트 만들어줘"

Claude:
1. Excel 열기
2. 데이터 범위 자동 탐지
3. 피벗 테이블 생성
4. 차트 추가
5. PowerPoint로 결과 정리

Vercept 기술 활용:

  • 스프레드시트 구조 이해
  • 데이터 패턴 인식
  • 멀티 앱 워크플로우

시나리오 3: 웹 리서치

사용자: "경쟁사 가격 조사해줘"

Claude:
1. 10개 사이트 방문
2. 가격 정보 추출
3. 스프레드시트에 정리
4. 요약 리포트 생성

Vercept 기술 활용:

  • 동적 웹페이지 네비게이션
  • 텍스트와 이미지에서 정보 추출
  • 구조화된 데이터 생성

Bun에 이은 두 번째 인수

2025년: Bun 인수

  • Bun: 초고속 JavaScript 런타임
  • 목적: Claude Code의 실행 속도 향상
  • 결과: $1B 매출 달성 기여

2026년: Vercept 인수

  • Vercept: AI 비전 및 인터랙션
  • 목적: 컴퓨터 사용 능력 강화
  • 예상 결과: 더 넓은 자동화 가능

Anthropic의 인수 원칙

"우리가 찾는 팀은:

  1. 기술적 야망이 우리와 일치
  2. 우리 역량을 직접 향상
  3. 안전성과 엄격함을 공유"

앞으로의 계획

단기 (2026년)

  • Vercept 팀 Anthropic 합류 완료
  • Vercept 외부 제품 종료
  • Claude 컴퓨터 사용 기능 추가 개선

중기 (2026-2027)

목표: OSWorld 95% 이상

  • 인간 수준 초과
  • 더 복잡한 멀티 스텝 작업
  • 실패 복구 능력 강화

장기 비전

"AI가 모든 소프트웨어를 사람처럼 사용"

  • IDE에서 코딩
  • 디자인 툴로 UI 제작
  • 데이터 분석 툴 활용
  • 프로덕션 워크플로우 자동화

경쟁사 동향

OpenAI

  • Codex Agent: 코드 중심 자동화
  • 컴퓨터 사용 기능은 제한적

Google

  • Gemini with Extensions: 특정 앱 연동
  • 범용 컴퓨터 사용은 미지원

Anthropic

  • Claude Computer Use: 범용 컴퓨터 제어
  • Vercept 인수로 리드 확대

개발자를 위한 의미

1. 더 적은 통합 작업

Before:

# 각 API마다 별도 통합 필요
gmail_api.send()
sheets_api.update()
slack_api.post()

After:

# Claude가 UI로 직접 조작
claude.computer_use("""
1. Gmail 열어서 메일 보내고
2. Sheets에 기록하고
3. Slack에 알림
""")

2. 레거시 소프트웨어 자동화

Before:

  • API 없는 구형 소프트웨어 → 자동화 불가능

After:

  • Claude가 UI로 직접 조작 가능

3. 복잡한 워크플로우

Before:

  • RPA 도구로 스크립팅
  • 깨지기 쉬운 픽셀 좌표

After:

  • 자연어로 지시
  • Claude가 적응적으로 실행

마무리하며

Vercept 인수는 Anthropic의 **"AI가 진짜로 일하는 세상"**을 향한 또 하나의 큰 걸음입니다.

핵심:

  • Claude 컴퓨터 사용: 15% → 72.5% (4.8배 향상)
  • 인간 수준에 근접
  • Vercept 팀으로 더 빠른 발전 예상

특히 복잡한 멀티 스텝 작업을 자동화하려는 팀이라면, Claude의 컴퓨터 사용 기능이 게임 체인저가 될 것 같습니다.

여러분은 AI가 어떤 작업을 대신하길 원하시나요?


이 글은 Anthropic 공식 블로그 포스트를 정리한 것입니다. 원본은 여기에서 확인할 수 있습니다.