GPT-5.4 출시: 코딩, 컴퓨터 사용, 도구 검색까지 한 모델에

안녕하세요, Tom입니다.

오늘 정말 엄청난 소식이 터졌어요. OpenAI가 드디어 GPT-5.4를 공개했습니다. 작년 말부터 소문만 무성했던 그 모델이 드디어 베일을 벗은 건데요. 이번 업데이트는 단순히 성능이 조금 좋아진 수준이 아닙니다. 모델이 세상을 보고, 컴퓨터를 다루고, 도구를 찾는 방식 자체가 완전히 바뀌었어요.

개인적으로 이번 발표를 보면서 가장 놀랐던 건 네이티브 컴퓨터 사용 기능입니다. 이제 AI가 단순히 텍스트를 생성하는 걸 넘어, 우리처럼 화면을 보고 마우스를 움직이며 작업을 처리한다는 뜻이죠. OSWorld 점수가 인간 평균을 넘어섰다는 사실 하나만으로도 이번 릴리즈의 무게감이 느껴집니다.

어떤 점들이 바뀌었는지 하나씩 자세히 살펴볼게요.

전문 업무 능력 (Knowledge Work)

GPT-5.4는 이제 단순한 챗봇이 아닙니다. 실제 전문직 종사자들의 업무를 대신하거나 보조할 수 있는 수준까지 올라왔어요.

GDPval(General Professional Value) 벤치마크에서 83.0%를 기록했는데, 이는 이전 모델인 GPT-5.2의 70.9%에서 무려 12.1%p나 뛰어오른 수치입니다. 44개 전문 직종에서 인간 전문가와 대등하거나 그 이상의 성과를 낸다는 의미예요. 법률, 의료, 금융, 컨설팅 등 고도의 전문 지식이 필요한 영역에서도 이제는 AI가 실질적인 가치를 만들어낼 수 있다는 걸 수치로 증명한 셈입니다.

특히 스프레드시트 모델링 능력은 87.3%로, GPT-5.2의 68.4%에 비해 거의 20%p 가까이 좋아졌습니다. 복잡한 수식이나 데이터 분석을 맡겨도 이제는 안심할 수 있겠어요.

신뢰성 측면에서도 큰 진전이 있었습니다:

허위 사실을 말하는 비율이 33% 감소
오류가 포함된 답변도 18% 감소

이번 발표와 함께 ChatGPT for Excel 애드인도 정식 출시되었는데, 이제 엑셀 안에서 직접 GPT-5.4의 강력한 분석 기능을 사용할 수 있게 되었습니다. 엑셀 파워 유저들에게는 정말 반가운 소식이죠.

복잡한 법률 문서 분석이나 금융 보고서 작성 같은 영역에서도 GPT-5.4는 탁월한 성능을 보여줍니다. 이제는 AI에게 "이 보고서 요약해줘"가 아니라 "이 계약서의 독소 조항을 찾아서 수정안을 제안해줘"라고 시켜도 충분히 믿을 만한 결과가 나옵니다. 전문가 수준의 지식 활용 능력이 강화되면서, AI가 단순한 보조 도구를 넘어 실제 업무 파트너로서의 역할을 톡톡히 해낼 것으로 기대됩니다.

네이티브 컴퓨터 사용과 비전 (Computer Use & Vision)

이번 업데이트의 핵심 중 하나죠. OSWorld-Verified 벤치마크에서 75.0%를 기록하며 인간의 평균 점수인 72.4%를 넘어섰습니다. GPT-5.2가 47.3%였던 걸 생각하면 정말 말도 안 되는 발전이에요.

기존에는 AI가 컴퓨터를 쓰려면 별도의 에이전트나 복잡한 API 연결이 필요했습니다. 하지만 GPT-5.4는 모델 자체가 운영체제를 이해하고 조작해요. 브라우저를 열고, 파일을 편집하고, 메시지를 보내는 일련의 과정을 스스로 계획하고 실행합니다.

웹 조작 성능도 압도적입니다:

WebArena-Verified: 67.3%
Online-Mind2Web: 92.8%

Online-Mind2Web에서 92.8%를 기록한 것은 AI가 웹사이트의 구조를 거의 완벽하게 이해하고, 사용자가 원하는 정보를 찾기 위해 필요한 행동을 정확하게 수행할 수 있다는 것을 의미해요.

비전 성능도 대폭 강화되었습니다. 새로운 original 이미지 입력 모드를 통해 최대 1,024만 픽셀(10.24M pixels)의 고해상도 이미지를 처리할 수 있어요. 덕분에 아주 작은 텍스트나 복잡한 도면도 정확하게 읽어냅니다. OmniDocBench 에러율도 0.140에서 0.109로 낮아졌어요. 문서 파싱 정확도가 크게 올라간 거죠.

이게 왜 중요하냐면, 이제 우리가 AI에게 "내 이메일 확인해서 이번 주 일정 정리하고 캘린더에 등록해줘"라고 한마디만 하면 끝난다는 거죠. AI가 직접 화면을 보면서 클릭하고 타이핑하는 모습을 상상해보세요. 정말 소름 돋는 변화입니다.

코딩의 끝판왕 (Coding)

개발자분들이라면 가장 반가워할 소식입니다. GPT-5.4는 기존에 별도로 운영되던 GPT-5.3-Codex의 모든 기능을 흡수했어요. SWE-Bench Pro에서 57.7%라는 경이로운 점수를 기록했습니다. GPT-5.2의 55.6%에서 또 한 번 올라선 거예요.

단순히 코드 한 줄 짜주는 수준이 아니라, 전체 프로젝트 구조를 이해하고 버그를 수정하며 새로운 기능을 구현하는 능력이 비약적으로 상승했어요. 특히 Codex /fast 모드는 이전보다 1.5배 더 빨라졌습니다.

재미있는 점은 'Playwright (Interactive)'라는 실험적인 스킬이 추가되었다는 거예요. AI가 직접 브라우저를 띄워 프론트엔드 작업을 테스트하고 수정하는 모습을 볼 수 있습니다. 프론트엔드 작업에서도 레이아웃 수정이나 컴포넌트 분리 같은 작업을 아주 깔끔하게 처리해줘요.

1M(100만) 토큰 컨텍스트 윈도우는 Codex에서 실험적으로 제공됩니다. 이제 웬만한 대규모 프로젝트의 전체 소스 코드를 한 번에 집어넣고 질문할 수 있게 되었네요. 대규모 코드베이스를 다루는 개발자들에게 1M 컨텍스트는 게임 체인저가 될 것입니다. 프로젝트 전체의 맥락을 유지하면서 코드를 작성하거나 리팩토링하는 것이 가능해졌기 때문이죠.

저도 방금 테스트해봤는데, 복잡한 레거시 코드 분석 속도가 말도 안 되게 빠르더라고요. 특히 프론트엔드 개선 작업에서 체감 차이가 확실합니다.

혁신적인 'Tool Search' 기능

이번에 새로 도입된 Tool Search 기능은 정말 영리합니다. 기존에는 모델이 사용할 수 있는 모든 도구(API)의 정의를 프롬프트에 다 때려 넣어야 했어요. 그러다 보니 토큰 낭비가 심했죠.

하지만 이제는 가벼운 도구 리스트만 가지고 있다가, 필요할 때만 모델이 실시간으로 도구의 상세 정의를 찾아봅니다. 마치 사람이 모든 매뉴얼을 외우는 게 아니라, 필요할 때 찾아보는 것처럼요.

MCP Atlas 기준으로 토큰 사용량을 47%나 줄였다고 해요. 36개의 MCP 서버를 연결해도 성능 저하 없이 필요한 도구만 쏙쏙 골라 씁니다. 비용도 아끼고 속도도 빨라지는 일석이조의 효과예요.

MCP 서버 효율성도 크게 개선되었습니다. 이제는 수십 개의 도구가 연결되어 있어도 모델이 혼란을 겪지 않고 정확하게 필요한 도구를 호출합니다. 이는 복잡한 워크플로우를 가진 기업용 솔루션에서 특히 빛을 발할 것 같아요.

토큰 사용량이 47%나 줄어들었다는 것은 실제 운영 비용 측면에서도 엄청난 이득입니다. 더 적은 비용으로 더 많은 도구를 활용할 수 있게 된 셈이니까요.

에이전트 도구 호출 (Agentic Tool Calling)

도구를 사용하는 능력 자체도 훨씬 정교해졌습니다. Toolathlon 벤치마크에서 54.6%를 기록하며 GPT-5.2의 45.7%보다 크게 개선되었어요. BrowseComp 점수도 82.7%로, 웹 검색을 통한 정보 수집 능력이 매우 정확해졌습니다.

특히 통신 분야 벤치마크인 τ2-bench telecom에서는 98.9%라는 거의 완벽에 가까운 점수를 보여주었습니다. 이제는 복잡한 API 호출이 필요한 에이전트 작업도 믿고 맡길 수 있는 수준이 된 것 같아요.

BrowseComp가 82.7%까지 올라온 것도 인상적입니다. 이전 모델인 GPT-5.2가 65.8%였던 것에 비하면, 이제는 웹에서 정보를 찾고 정리하는 과정에서 실수가 거의 없다고 봐도 무방할 정도예요.

에이전트가 스스로 도구를 선택하고 조합하여 문제를 해결하는 능력이 강화되면서, 우리가 상상하던 진정한 의미의 AI 비서에 한 걸음 더 다가간 느낌입니다. 단순히 명령을 수행하는 게 아니라, 목표를 이해하고 스스로 경로를 찾아가는 거죠.

더 정교해진 조종성 (Steerability)

GPT-5.4는 답변을 시작하기 전에 미리 '생각의 계획'을 세웁니다. 답변의 서두에 어떤 식으로 진행할지 개요(Preamble/Plan Outline)를 먼저 보여주기도 하죠. 그리고 답변 중간에 사용자가 개입해서 방향을 틀어도 아주 유연하게 대처해요.

"이 부분은 좀 더 기술적으로 설명해줘"라거나 "방금 말한 계획에서 2번 단계는 빼고 진행해줘" 같은 중간 개입(Mid-response Adjustment) 요청을 완벽하게 이해합니다. 더 긴 시간 동안 일관된 논리를 유지하며 생각하는 Longer Thinking 능력도 강화되었습니다.

이러한 조종성의 향상은 AI와의 협업에서 매우 중요한 요소입니다. 사용자의 의도를 더 정확하게 파악하고, 중간에 수정 사항이 생겨도 처음부터 다시 시작할 필요 없이 자연스럽게 흐름을 이어갈 수 있기 때문이죠.

또한 모델이 자신의 사고 과정을 더 명확하게 드러내기 때문에, 사용자는 AI가 왜 그런 답변을 내놓았는지 더 쉽게 이해하고 신뢰할 수 있게 됩니다. 특히 복잡한 멀티스텝 작업에서 이 기능의 진가가 발휘될 것 같아요.

가격 및 가용성 (Pricing)

성능이 올라간 만큼 가격 체계도 세분화되었습니다. 이번에 GPT-5.4 Pro 모델이 함께 출시되었는데, 더 높은 처리량과 우선순위를 제공합니다.

모델	Input (1M)	Output (1M)	비고
GPT-5.2	$1.75	$14.00	기존 모델
GPT-5.4	$2.50	$15.00	신규 표준 모델
GPT-5.2 Pro	$3.50	$28.00	우선순위 제공
GPT-5.4 Pro	$5.00	$30.00	최고 성능 & 우선순위

Batch/Flex 모드를 사용하면 위 가격의 절반 가격으로 이용할 수 있고, 우선순위 처리가 필요한 경우 2배의 비용을 지불하면 됩니다.

참고로 GPT-5.2 Thinking 모델은 3개월 뒤인 2026년 6월 5일에 은퇴할 예정이라고 하네요. 아직 GPT-5.2 Thinking을 쓰고 계신 분들은 마이그레이션 계획을 세워두시는 게 좋을 것 같아요.

Codex 모델의 경우 1M 컨텍스트를 실험적으로 제공하며, 개발자들에게 더 넓은 시야를 제공합니다. 가격이 조금 올랐지만, Tool Search 기능을 통해 실제 사용되는 토큰 양을 줄일 수 있다는 점을 고려하면 합리적인 수준이라고 생각해요.

주요 벤치마크 비교

주요 벤치마크 점수를 표로 정리해봤습니다. 숫자로 보니 차이가 더 명확하네요.

핵심 능력 비교

벤치마크	GPT-5.2	GPT-5.4	비고
GDPval	70.9%	83.0%	전문직 업무 수행 능력
OSWorld-Verified	47.3%	75.0%	컴퓨터 조작 (인간 72.4%)
SWE-Bench Pro	55.6%	57.7%	소프트웨어 엔지니어링
BrowseComp	65.8%	82.7%	웹 브라우징 및 정보 수집
ARC-AGI-2	52.9%	73.3%	일반 인공지능 추론 능력
MMMU Pro (no tools)	79.5%	81.2%	멀티모달 추론

고난도 수학·과학 및 도구 활용

벤치마크	GPT-5.2	GPT-5.4	비고
FrontierMath Tier 1-3	40.7%	47.6%	최첨단 수학 문제 해결
Humanity's Last Exam	45.5%	52.1%	도구 사용 포함 점수
Toolathlon	45.7%	54.6%	도구 활용 능력 테스트
MCP Atlas	60.6%	67.2%	MCP 서버 활용 능력

비전 및 웹 조작

벤치마크	GPT-5.2	GPT-5.4	비고
WebArena-Verified	-	67.3%	웹 에이전트 작업 성공률
Online-Mind2Web	-	92.8%	웹 UI 조작 정확도
OmniDocBench	0.140	0.109	문서 파싱 에러율 (낮을수록 좋음)

추론 능력의 도약 (Reasoning)

GPT-5.4는 단순히 도구 사용 능력만 올라간 게 아닙니다. 순수 추론 능력 자체도 크게 향상되었어요.

ARC-AGI-2 벤치마크에서 73.3%를 기록했습니다. GPT-5.2가 52.9%였으니 무려 20.4%p 상승한 거예요. ARC-AGI는 단순 암기나 패턴 매칭이 아닌, 진짜 추론 능력을 측정하는 벤치마크라 이 수치는 특히 의미가 큽니다.

Humanity's Last Exam (도구 사용 포함)에서는 52.1%를 기록했어요. GPT-5.2의 45.5%에서 6.6%p 올라선 수치입니다. 이 벤치마크는 인류 최고 수준의 전문가들이 만든 문제들로 구성되어 있어서, 50%를 넘겼다는 것 자체가 대단한 일이에요.

FrontierMath Tier 1-3에서도 47.6%를 기록하며 GPT-5.2의 40.7%를 크게 앞질렀습니다. 최첨단 수학 연구자들도 어려워하는 문제들을 절반 가까이 풀어낸다는 건, 이제 AI가 수학 연구 보조 도구로서도 충분히 활용될 수 있다는 신호예요.

MMMU Pro (도구 없이)에서는 81.2%를 기록했습니다. 멀티모달 추론 능력도 꾸준히 올라가고 있어요. 이미지와 텍스트를 함께 이해하고 추론하는 능력이 강화되면서, 복잡한 다이어그램이나 차트를 분석하는 작업에서도 탁월한 성능을 보여줍니다.

Tom의 총평 (Summary)

이번 GPT-5.4 출시는 AI가 '도구'에서 '동료'로 진화하는 결정적인 순간이라고 생각합니다. 특히 컴퓨터를 직접 조작하는 능력은 우리가 일하는 방식을 완전히 바꿔놓을 거예요. 이제는 AI에게 일을 시키는 게 아니라, AI와 함께 협업하는 느낌이 더 강해질 것 같습니다.

개인적으로는 Tool Search 기능을 통한 토큰 효율 개선이 가장 인상적이었어요. 단순히 모델을 크게 만드는 게 아니라, 어떻게 하면 더 영리하게 자원을 쓸지 고민한 흔적이 보입니다. 47% 토큰 절감은 실제 운영 비용에서 체감이 확실히 될 거예요.

개발자로서 1M 컨텍스트와 강화된 코딩 성능은 정말 참기 힘든 유혹이네요. Playwright Interactive 스킬이 실험적으로 추가된 것도 프론트엔드 개발자들에게는 큰 선물이 될 것 같아요.

물론 가격이 조금 오른 건 아쉽지만, 성능 향상 폭과 효율성을 생각하면 충분히 납득할 만한 수준입니다. 특히 OSWorld 점수가 인간을 넘어섰다는 점은 시사하는 바가 큽니다. 이제 AI 에이전트가 우리 대신 지루한 반복 업무를 처리해주는 시대가 정말 코앞으로 다가왔네요.

GDPval 83%라는 숫자가 머릿속에서 떠나질 않아요. 44개 전문 직종에서 인간 전문가 수준이라는 건, 단순히 "AI가 잘한다"는 말이 아니라 실제 업무 현장에서의 역할 분담이 바뀐다는 뜻이니까요. 앞으로 AI가 우리 삶에 어떤 변화를 더 가져올지 정말 기대됩니다.

ARC-AGI-2 73.3%는 또 다른 시각에서 생각해볼 필요가 있어요. 이 벤치마크는 인간의 일반 지능을 측정하는 데 특화되어 있는데, AI가 인간의 일반 추론 능력에 근접하고 있다는 신호로 볼 수 있습니다. 이런 수치들을 보면 GPT-5.4가 단순한 언어 모델을 넘어 진정한 의미의 인공지능으로 나아가고 있다는 느낌이 들어요.

여러분은 이번 업데이트에서 어떤 기능이 가장 기대되시나요? 댓글로 의견 나눠주세요!

한 가지 더 — 이번 릴리즈는 OpenAI가 단순히 '더 큰 모델'을 만드는 방향에서 벗어나, 효율성과 실용성을 동시에 추구하고 있다는 걸 보여줍니다. Tool Search로 토큰을 아끼고, Codex /fast로 속도를 높이고, 1M 컨텍스트로 실용성을 극대화하는 방향이죠. 앞으로의 AI 경쟁은 단순한 벤치마크 숫자 싸움이 아니라, 실제 업무에서 얼마나 쓸 수 있느냐의 싸움이 될 것 같아요.

GPT-5.4는 오늘 출시된 가장 중요한 AI 뉴스입니다. 직접 주요 기능들을 테스트해보고 다시 소감을 나눠드릴게요.

원문: Introducing GPT-5.4

GPT-5.4 출시: 코딩, 컴퓨터 사용, 도구 검색까지 한 모델에

전문 업무 능력 (Knowledge Work)

네이티브 컴퓨터 사용과 비전 (Computer Use & Vision)

코딩의 끝판왕 (Coding)

혁신적인 'Tool Search' 기능

에이전트 도구 호출 (Agentic Tool Calling)

더 정교해진 조종성 (Steerability)

가격 및 가용성 (Pricing)

주요 벤치마크 비교

핵심 능력 비교

고난도 수학·과학 및 도구 활용

비전 및 웹 조작

추론 능력의 도약 (Reasoning)

Tom의 총평 (Summary)

GPT-5.3 Instant: 더 자연스럽고 덜 거부하는 ChatGPT

GPT-5.3-Codex-Spark: OpenAI 최초의 실시간 코딩 모델

OpenAI + Dell: Codex가 기업 온프레미스로 간다

전문 업무 능력 (Knowledge Work)

네이티브 컴퓨터 사용과 비전 (Computer Use & Vision)

코딩의 끝판왕 (Coding)

혁신적인 'Tool Search' 기능

에이전트 도구 호출 (Agentic Tool Calling)

더 정교해진 조종성 (Steerability)

가격 및 가용성 (Pricing)

주요 벤치마크 비교

핵심 능력 비교

고난도 수학·과학 및 도구 활용

비전 및 웹 조작

추론 능력의 도약 (Reasoning)

Tom의 총평 (Summary)

관련 글

GPT-5.3 Instant: 더 자연스럽고 덜 거부하는 ChatGPT

GPT-5.3-Codex-Spark: OpenAI 최초의 실시간 코딩 모델

OpenAI + Dell: Codex가 기업 온프레미스로 간다