OpenAI Safety Bug Bounty: 프롬프트 인젝션 신고하면 최대 $7,500
안녕하세요, Tom입니다.
OpenAI가 Safety Bug Bounty 프로그램을 새로 시작했어요. 기존에도 보안 버그 바운티는 있었는데, 이번에는 AI 남용과 안전 리스크에 특화된 별도 프로그램이에요.
프롬프트 인젝션, 에이전트 하이재킹, 데이터 유출 같은 AI 특유의 위험을 다루는 건데, AI 보안에 관심 있는 분들에게 꽤 흥미로운 기회가 될 것 같아요.
기존 보안 바운티와 뭐가 다른가
핵심 차이는 이거예요: 기존 보안 바운티는 기술적 취약점(SQL 인젝션, XSS 등)을 다루는데, Safety Bug Bounty는 "기술적 취약점은 아니지만 의미 있는 안전 리스크"를 대상으로 해요.
예를 들면: 모델이 특정 프롬프트에 절반 이상의 확률로 위험한 행동을 하게 만들 수 있다면, 이건 전통적인 보안 버그는 아니지만 Safety Bug Bounty에서는 유효한 신고예요.
네 가지 포커스 영역
1. 에이전트 리스크
가장 핵심적인 영역이에요. 공격자가 제어하는 텍스트로 브라우저 기반 에이전트나 ChatGPT 에이전트를 하이재킹하는 케이스를 다뤄요.
- 외부 웹페이지의 텍스트가 에이전트를 조종하는 프롬프트 인젝션
- OpenAI 제품이 대규모로 유해한 행동을 수행하는 경우
조건: 50% 이상의 재현율이 있어야 해요. "가끔 되는" 수준은 안 받아요.
2. OpenAI 기밀 정보 유출
모델이 내부 추론 과정이나 기밀 정보를 출력하는 경우예요. 시스템 프롬프트 유출 같은 게 여기에 해당하겠죠.
3. 계정 & 플랫폼 무결성
규칙 집행의 약점, 자동화 방지 우회, 신뢰 신호 조작, 정지/차단 회피 같은 케이스예요.
4. MCP (Model Context Protocol) 리스크
MCP 관련 테스트도 받는데, 서드파티 서비스의 이용 약관을 준수해야 한다는 조건이 있어요.
보상
최대 $7,500까지 받을 수 있어요. 높은 심각도 + 일관된 재현성 + 명확한 완화 방안이 있어야 최대 보상을 받을 수 있고요.
플랫폼은 Bugcrowd를 통해 운영돼요.
이건 안 받아요
한 가지 주의할 점이 있어요. 일반적인 탈옥(jailbreak)은 대상이 아니에요.
- 단순히 모델이 무례하게 말하게 만드는 것
- 검색하면 바로 찾을 수 있는 정보를 출력하게 하는 것
- 안전 영향이 입증되지 않은 콘텐츠 정책 우회
이런 건 다 대상 밖이에요. "프롬프트 인젝션으로 욕을 하게 만들었어요"는 안 되고, "프롬프트 인젝션으로 에이전트가 사용자 데이터를 외부에 전송하게 만들었어요"는 되는 거죠.
총평
AI 보안이 전통적인 소프트웨어 보안과 다른 카테고리로 자리 잡고 있다는 걸 보여주는 프로그램이에요. 에이전트가 점점 더 많은 권한을 갖게 되면서, 프롬프트 인젝션이나 에이전트 하이재킹 같은 문제가 정말 중요해지고 있거든요.
AI 보안에 관심 있는 분들이라면 Bugcrowd에서 한 번 살펴보세요. $7,500이면 꽤 괜찮은 보상이에요.
관련 글
GPT-5.5-Cyber 공개: 보안 연구자를 위한 특화 모델
OpenAI가 보안 연구자 전용 GPT-5.5-Cyber를 공개했어요. Trusted Access 프로그램 확대와 함께, 취약점 연구를 가속화하는 AI 모델이 등장한 거죠.
OpenAI Codex 보안 운영 전략: 샌드박싱부터 텔레메트리까지
OpenAI가 Codex를 어떻게 안전하게 운영하는지 정리했어요. 샌드박싱, 승인 메커니즘, 네트워크 정책, 에이전트 텔레메트리까지 — 코딩 에이전트를 도입하려는 팀이라면 참고할 만한 내용이에요.
Codex Security: AI가 코드 취약점을 찾아 패치하는 시대
OpenAI의 Codex Security가 리서치 프리뷰로 공개됐습니다. 프로젝트 컨텍스트를 깊이 분석해 복잡한 취약점을 탐지하고, 검증하고, 패치까지 제안하는 AI 보안 에이전트.