OpenAI 내부 데이터 에이전트: GPT-5, Codex, Memory로 데이터 분석 자동화

OpenAI 내부 데이터 에이전트: GPT-5, Codex, Memory로 데이터 분석 자동화

4분 읽기원문 보기
AIOpenAI데이터에이전트GPT-5Codex

안녕하세요, Tom입니다.

OpenAI가 자체 플랫폼 데이터를 탐색하고 추론하는 맞춤형 내부 AI 데이터 에이전트를 구축했습니다. 이 에이전트는 외부 제공 서비스가 아닌 OpenAI 내부 전용 도구로, OpenAI의 데이터, 권한, 워크플로우에 특화되어 있습니다.

왜 맞춤형 도구가 필요했나

OpenAI의 데이터 플랫폼은 엔지니어링, 제품, 리서치를 아우르는 3,500명 이상의 내부 사용자에게 서비스를 제공하며, 600 페타바이트 이상의 데이터70,000개의 데이터셋을 다룹니다.

💡 이 규모에서는 올바른 테이블을 찾는 것만으로도 분석의 가장 시간 소모적인 부분이 됩니다.

"유사한 테이블이 많아서 어떤 차이가 있고 어떤 걸 써야 하는지 파악하는 데 엄청난 시간을 씁니다. 일부는 로그아웃 사용자를 포함하고, 일부는 포함하지 않습니다. 필드가 겹치는 경우도 많아서 무엇이 무엇인지 구별하기 어렵습니다." - 내부 사용자

기존 문제점

  • 테이블 검색의 어려움: 70,000개 데이터셋 중 올바른 테이블 찾기
  • 조인 오류: Many-to-many 조인, 필터 푸시다운 오류, null 처리 미비
  • 180줄 이상의 SQL: 올바른 테이블과 컬럼으로 조인했는지 확인 어려움
  • 분석 병목: 데이터 과학자가 SQL 디버깅이 아닌 메트릭 정의와 의사결정에 집중해야 함

에이전트 작동 방식

접근 경로

에이전트는 직원들이 이미 작업하는 모든 곳에서 사용 가능합니다:

  • Slack 에이전트
  • 웹 인터페이스
  • IDE 내부
  • Codex CLI (MCP 통해)
  • OpenAI 내부 ChatGPT 앱 (MCP 커넥터 통해)

🎯 MCP가 뭔가요? Model Context Protocol - AI 모델이 외부 도구와 통신하는 표준 프로토콜입니다.

핵심 아키텍처

1. Embeddings + RAG

70,000개 데이터셋의 메타데이터를 임베딩하여 벡터 검색으로 관련 테이블을 찾습니다.

2. GPT-5 추론

자연어 질문을 SQL로 변환하고, 결과를 해석하여 인사이트를 제공합니다.

3. Codex 코드 생성

복잡한 분석 파이프라인을 코드로 생성하여 실행합니다.

4. Memory 시스템

이전 분석 맥락을 기억하여 후속 질문에 활용합니다.

제가 주목한 점

⚠️ 이 아키텍처는 우리도 적용할 수 있습니다. Embeddings API + RAG로 메타데이터를 검색하고, GPT-4/Claude로 SQL을 생성하는 패턴은 범용적으로 사용 가능합니다.

🎯 특히 인상적인 점:

  • 메타데이터 임베딩으로 "올바른 테이블 찾기" 문제 해결
  • 자가 학습 루프로 쿼리 품질 지속적 개선
  • 다중 채널 접근 (Slack, IDE, 웹 등)

마무리

OpenAI의 데이터 에이전트는 "Embeddings API + GPT-5 + RAG"의 실전 응용 사례입니다. 우리 앱 규모에서도 분석 쿼리 자동화, 스키마 검색, 쿼리 최적화에 즉시 적용 가능한 패턴입니다.

여러분도 데이터 분석이 병목이라면, OpenAI의 접근법을 참고해보세요.


원문: OpenAI - Inside Our In-House Data Agent