OpenAI 내부 데이터 에이전트: GPT-5, Codex, Memory로 데이터 분석 자동화
안녕하세요, Tom입니다.
OpenAI가 자체 플랫폼 데이터를 탐색하고 추론하는 맞춤형 내부 AI 데이터 에이전트를 구축했습니다. 이 에이전트는 외부 제공 서비스가 아닌 OpenAI 내부 전용 도구로, OpenAI의 데이터, 권한, 워크플로우에 특화되어 있습니다.
왜 맞춤형 도구가 필요했나
OpenAI의 데이터 플랫폼은 엔지니어링, 제품, 리서치를 아우르는 3,500명 이상의 내부 사용자에게 서비스를 제공하며, 600 페타바이트 이상의 데이터와 70,000개의 데이터셋을 다룹니다.
이 규모에서는 올바른 테이블을 찾는 것만으로도 분석의 가장 시간 소모적인 부분이 됩니다."유사한 테이블이 많아서 어떤 차이가 있고 어떤 걸 써야 하는지 파악하는 데 엄청난 시간을 씁니다. 일부는 로그아웃 사용자를 포함하고, 일부는 포함하지 않습니다. 필드가 겹치는 경우도 많아서 무엇이 무엇인지 구별하기 어렵습니다." - 내부 사용자
기존 문제점
- 테이블 검색의 어려움: 70,000개 데이터셋 중 올바른 테이블 찾기
- 조인 오류: Many-to-many 조인, 필터 푸시다운 오류, null 처리 미비
- 180줄 이상의 SQL: 올바른 테이블과 컬럼으로 조인했는지 확인 어려움
- 분석 병목: 데이터 과학자가 SQL 디버깅이 아닌 메트릭 정의와 의사결정에 집중해야 함
에이전트 작동 방식
접근 경로
에이전트는 직원들이 이미 작업하는 모든 곳에서 사용 가능합니다:
- Slack 에이전트
- 웹 인터페이스
- IDE 내부
- Codex CLI (MCP 통해)
- OpenAI 내부 ChatGPT 앱 (MCP 커넥터 통해)
MCP가 뭔가요? Model Context Protocol - AI 모델이 외부 도구와 통신하는 표준 프로토콜입니다.
핵심 아키텍처
1. Embeddings + RAG
70,000개 데이터셋의 메타데이터를 임베딩하여 벡터 검색으로 관련 테이블을 찾습니다.
2. GPT-5 추론
자연어 질문을 SQL로 변환하고, 결과를 해석하여 인사이트를 제공합니다.
3. Codex 코드 생성
복잡한 분석 파이프라인을 코드로 생성하여 실행합니다.
4. Memory 시스템
이전 분석 맥락을 기억하여 후속 질문에 활용합니다.
제가 주목한 점
이 아키텍처는 우리도 적용할 수 있습니다. Embeddings API + RAG로 메타데이터를 검색하고, GPT-4/Claude로 SQL을 생성하는 패턴은 범용적으로 사용 가능합니다.
특히 인상적인 점:- 메타데이터 임베딩으로 "올바른 테이블 찾기" 문제 해결
- 자가 학습 루프로 쿼리 품질 지속적 개선
- 다중 채널 접근 (Slack, IDE, 웹 등)
마무리
OpenAI의 데이터 에이전트는 "Embeddings API + GPT-5 + RAG"의 실전 응용 사례입니다. 우리 앱 규모에서도 분석 쿼리 자동화, 스키마 검색, 쿼리 최적화에 즉시 적용 가능한 패턴입니다.
여러분도 데이터 분석이 병목이라면, OpenAI의 접근법을 참고해보세요.
Claude Code, OpenCode 같은 AI 코딩 도구를 직접 쓰면서 AI 업계의 변화를 개발자 관점에서 기록합니다. 단순 번역이 아니라 써본 경험과 해석을 함께 남기려고 해요.
관련 글
OpenAI Harness팀의 실험: 코드 0줄 직접 작성, Codex만으로 제품 만들기
OpenAI 엔지니어링팀이 5개월간 수동 코드 0줄, 100% Codex만으로 제품을 만든 경험을 공유했어요. 에이전트 퍼스트 개발의 미래가 보입니다.
OpenAI Codex 에이전트 루프 해부: 기술적 딥다이브
OpenAI가 Codex CLI의 에이전트 루프 작동 방식을 상세히 공개했습니다. 프롬프트 구성, 모델 추론, 도구 호출, 그리고 성능 최적화에 대해 알아봅니다.
OpenAI Codex 보안 운영 전략: 샌드박싱부터 텔레메트리까지
OpenAI가 Codex를 어떻게 안전하게 운영하는지 정리했어요. 샌드박싱, 승인 메커니즘, 네트워크 정책, 에이전트 텔레메트리까지 — 코딩 에이전트를 도입하려는 팀이라면 참고할 만한 내용이에요.