OpenAI Safety Bug Bounty: 프롬프트 인젝션 신고하면 최대 $7,500

OpenAI Safety Bug Bounty: 프롬프트 인젝션 신고하면 최대 $7,500

4분 읽기원문 보기
AIOpenAI보안버그바운티

안녕하세요, Tom입니다.

OpenAI가 Safety Bug Bounty 프로그램을 새로 시작했어요. 기존에도 보안 버그 바운티는 있었는데, 이번에는 AI 남용과 안전 리스크에 특화된 별도 프로그램이에요.

프롬프트 인젝션, 에이전트 하이재킹, 데이터 유출 같은 AI 특유의 위험을 다루는 건데, AI 보안에 관심 있는 분들에게 꽤 흥미로운 기회가 될 것 같아요.

기존 보안 바운티와 뭐가 다른가

핵심 차이는 이거예요: 기존 보안 바운티는 기술적 취약점(SQL 인젝션, XSS 등)을 다루는데, Safety Bug Bounty는 **"기술적 취약점은 아니지만 의미 있는 안전 리스크"**를 대상으로 해요.

💡 예를 들면: 모델이 특정 프롬프트에 절반 이상의 확률로 위험한 행동을 하게 만들 수 있다면, 이건 전통적인 보안 버그는 아니지만 Safety Bug Bounty에서는 유효한 신고예요.

네 가지 포커스 영역

🎯 1. 에이전트 리스크

가장 핵심적인 영역이에요. 공격자가 제어하는 텍스트로 브라우저 기반 에이전트나 ChatGPT 에이전트를 하이재킹하는 케이스를 다뤄요.

  • 외부 웹페이지의 텍스트가 에이전트를 조종하는 프롬프트 인젝션
  • OpenAI 제품이 대규모로 유해한 행동을 수행하는 경우

⚠️ 조건: 50% 이상의 재현율이 있어야 해요. "가끔 되는" 수준은 안 받아요.

🎯 2. OpenAI 기밀 정보 유출

모델이 내부 추론 과정이나 기밀 정보를 출력하는 경우예요. 시스템 프롬프트 유출 같은 게 여기에 해당하겠죠.

🎯 3. 계정 & 플랫폼 무결성

규칙 집행의 약점, 자동화 방지 우회, 신뢰 신호 조작, 정지/차단 회피 같은 케이스예요.

🎯 4. MCP (Model Context Protocol) 리스크

MCP 관련 테스트도 받는데, 서드파티 서비스의 이용 약관을 준수해야 한다는 조건이 있어요.

보상

최대 $7,500까지 받을 수 있어요. 높은 심각도 + 일관된 재현성 + 명확한 완화 방안이 있어야 최대 보상을 받을 수 있고요.

플랫폼은 Bugcrowd를 통해 운영돼요.

이건 안 받아요

한 가지 주의할 점이 있어요. **일반적인 탈옥(jailbreak)**은 대상이 아니에요.

  • 단순히 모델이 무례하게 말하게 만드는 것
  • 검색하면 바로 찾을 수 있는 정보를 출력하게 하는 것
  • 안전 영향이 입증되지 않은 콘텐츠 정책 우회

이런 건 다 대상 밖이에요. "프롬프트 인젝션으로 욕을 하게 만들었어요"는 안 되고, "프롬프트 인젝션으로 에이전트가 사용자 데이터를 외부에 전송하게 만들었어요"는 되는 거죠.

총평

AI 보안이 전통적인 소프트웨어 보안과 다른 카테고리로 자리 잡고 있다는 걸 보여주는 프로그램이에요. 에이전트가 점점 더 많은 권한을 갖게 되면서, 프롬프트 인젝션이나 에이전트 하이재킹 같은 문제가 정말 중요해지고 있거든요.

AI 보안에 관심 있는 분들이라면 Bugcrowd에서 한 번 살펴보세요. $7,500이면 꽤 괜찮은 보상이에요.


원문: Introducing the OpenAI Safety Bug Bounty program