AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs OpenAI: GPT-5.4

Last updated at: 2026-06-03

Metric	Claude Opus 4.8 Claude Opus 4.8 none Release: 2026-05-28	GPT-5.4 GPT-5.4 medium Release: 2026-03-05

Metric	Claude Opus 4.8 Claude Opus 4.8 none Release: 2026-05-28	GPT-5.4 GPT-5.4 medium Release: 2026-03-05
Score	7.3	7.9
Rank	#62	#27
Reliability	10.0	10.0
Consistency	9.2	8.5
Tests Correct
Attempt pass rate	65.0%	75.0%
Flaky tests	2	4
Total Runs	60	60
Cost per result	4.324	8.765
Total Cost	$0.519	$1.140
Input Price	$5.000 / 1M	$2.500 / 1M
Output Price	$25.000 / 1M	$15.000 / 1M
Total Input Tokens	63,282	31,489
Output Tokens	8,098	2,221
Reasoning Tokens	0	68,486
Response Time (avg)	3.51s	22.31s
Response Time (max)	17.73s	100.41s
Response Time (total)	70.19s	446.17s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
GPT-5.4	8.3	10.0	75.0%	0		4.11s	606	240	1,511

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Opus 4.8	6.8	10.0	50.0%	0		3.59s	6,768	1,323	0
GPT-5.4	8.2	6.7	83.3%	1		54.98s	4,686	412	19,995

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	29,658	3,259	0
GPT-5.4	10.0	10.0	100.0%	0		20.57s	11,019	301	3,543

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
GPT-5.4	10.0	10.0	100.0%	0		5.32s	7,140	234	804

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Opus 4.8	5.3	7.2	44.4%	1		1.66s	975	61	0
GPT-5.4	5.3	7.2	44.4%	1		74.27s	619	61	34,748

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
GPT-5.4	4.7	3.1	33.3%	1		4.92s	477	145	321

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
GPT-5.4	10.0	10.0	100.0%	0		3.11s	660	93	897

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
GPT-5.4	8.2	7.2	88.9%	1		9.14s	642	441	3,815

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
GPT-5.4	10.0	10.0	100.0%	0		13.28s	5,445	264	1,031

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
GPT-5.4	3.0	10.0	0.0%	0		13.95s	195	30	1,821

Quick Compare

Switch Comparison Pair

GPT-5.4mediumvsQwen3.7 Maxnone Claude Opus 4.8nonevsQwen3.5-35B-A3Bmedium Claude Opus 4.8nonevsGPT-5.4 Minimedium Gemini 3.5 FlashminimalvsGPT-5.4medium Claude Opus 4.8nonevsGPT-5.2medium Claude Opus 4.8nonevsQwen3.6 35B A3Bmedium Claude Opus 4.8nonevsGLM 5V Turbomedium Claude Opus 4.8nonevsGPT-5.4 Nanomedium Claude Opus 4.8nonevsStep 3.7 Flashhigh Claude Opus 4.8nonevsMiniMax M3medium Claude Opus 4.8nonevsStep 3.7 Flashlow Claude Opus 4.8nonevsGPT-5 Minimedium