AI Model · 2026
GPT 5.4 성능 완벽 정리 — Codex, 디시 반응까지
GDPval 83%, OSWorld 75%, SWE-Bench 57.7%. 숫자는 인상적한데 실제로는 어떤 모델일까요?
왜 이번 모델이 조금 달라 보이나
솔직히 GPT 업데이트 공지가 뜰 때마다 "또 나왔네" 하고 흘려보낼 때가 많아요. 그런데 GPT 5.4는 좀 다르게 느껴졌습니다. 단순히 수치가 올라간 게 아니라, Codex에서 따로 굴리던 코딩 역량과 문서 작업, 컴퓨터 조작 능력을 하나로 통합한 모델이라는 거거든요. 2026년 3월 5일 공개 이후 반응을 살펴봤더니 커뮤니티에서도 꽤 진지하게 얘기하고 있었습니다.
핵심은 이겁니다. GPT 5.3-Codex가 코딩에 특화된 모델이었다면, GPT 5.4는 그 코딩 능력을 가져오면서 범용 업무까지 품은 형태예요. ChatGPT, API, Codex 세 곳에 동시 공개됐다는 것도 포인트인데, 이게 단순한 연구용 모델이 아니라 실무에 바로 얹어 쓰는 걸 전제로 만들어졌다는 신호거든요.
벤치마크 수치, 어떻게 읽어야 하나
수치를 보기 전에 먼저 한 가지 짚고 싶어요. 벤치마크는 실제 체감과 늘 100% 일치하진 않습니다. 그래도 방향성을 읽는 데는 분명 유용하죠. 이번 GPT 5.4에서 가장 눈에 띄는 변화는 GDPval인데, 5.3-Codex의 70.9%에서 83.0%로 12포인트 넘게 뛰었어요. 오피스 업무 처리 능력이 체계적으로 올라갔다는 거고, 이건 코딩 외 실무에서도 쓸 수 있다는 뜻이에요.
OSWorld-Verified도 흥미롭습니다. 74.0%에서 75.0%로 소폭 올랐는데, 중요한 건 이게 인간 성능 기준치인 72.4%를 넘겼다는 거예요. 컴퓨터를 직접 조작하는 능력에서 사람보다 잘한다는 얘기니까, 에이전트 자동화 쪽으로 활용하려는 분들이라면 주목할 만한 지점입니다.
GPT 5.4 벤치마크 비교
| 벤치마크 | GPT 5.2 | GPT 5.3-Codex | GPT 5.4 | 변화 |
|---|---|---|---|---|
| GDPval | — | 70.9% | 83.0% | +12.1%p |
| SWE-Bench Pro | 55.6% | 56.8% | 57.7% | +0.9%p |
| OSWorld-Verified | 47.3% | 74.0% | 75.0% | +1.0%p |
| BrowseComp | — | — | 82.7% | 신규 |
| Toolathlon | — | — | 54.6% | 신규 |
디시 반응 — 실제 체감은 어떤가
커뮤니티 반응은 좀 갈립니다. GPT 5 계열 Codex가 처음 나왔을 때 "기존 4.1이나 4o보다 4~7배 느리다"는 불만이 꽤 많았거든요. 속도 문제는 실무에서 치명적이니까 당연한 반응이죠. GPT 5.4의 /fast 모드는 이 불만을 겨냥해서 나온 포인트라고 봐요. 최대 1.5배 향상이라고 하니, 체감이 어떤지는 직접 써봐야 알겠지만 방향 자체는 맞다고 생각합니다.
반대로 성능 자체에 대한 평가는 긍정적인 편이에요. 특히 장문 문맥을 다루거나, 여러 도구를 연결해서 쓰는 작업에서 일관성이 올라갔다는 후기가 눈에 띄었어요. 저도 실제로 복합 에이전트 작업을 테스트해봤는데, 중간에 맥락을 잃고 엉뚱한 방향으로 가는 빈도가 이전보다 줄었다는 느낌은 분명히 있었습니다.
API 요금 구조 정리
| 모델 / 옵션 | 입력 (1M 토큰) | 캐시 입력 | 출력 (1M 토큰) | 비고 |
|---|---|---|---|---|
| GPT 5.4 (표준) | $2.50 | $0.25 | $15.00 | 기본 |
| GPT 5.4 Pro | $30.00 | — | $180.00 | 고성능 |
| 배치 / Flex | 표준의 50% | — | 표준의 50% | 비용 절감 |
| Priority | 표준의 2배 | — | 표준의 2배 | 우선 처리 |
Codex와의 관계, 어떻게 이해하면 될까
GPT 5.4의 역할
코딩, 문서 작업, 웹 탐색, 컴퓨터 조작을 하나의 모델에서 처리. 에이전트 워크플로 전체를 커버하는 통합형으로 포지셔닝됩니다.
Codex의 역할
개발용 실행 환경으로 여전히 존재. GPT 5.4는 그 안에서 더 강한 추론과 도구 사용 능력을 제공하는 핵심 엔진 역할을 합니다.
주의할 점
Pro 버전 요금이 표준 대비 12배 이상 높아요. 실제 작업 규모와 예산을 먼저 계산한 뒤 플랜을 선택하는 게 중요합니다.
이런 분께 추천
에이전트 자동화, 오피스 업무 통합, 컴퓨터 조작 기반 워크플로가 필요한 분. 단순 코딩만이라면 5.3-Codex도 여전히 유효합니다.


(겜스고 할인코드 : YGN62)
MiniMax 2.7 후기 — Claude Code와 냉정하게 비교해봤다