AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs OpenAI: GPT-5.4 Nano

Last updated at: 2026-04-04

Metric	Claude Opus 4.6 Claude Opus 4.6 medium Release: 2026-02-05	GPT-5.4 Nano GPT-5.4 Nano medium Release: 2026-03-17

Metric	Claude Opus 4.6 Claude Opus 4.6 medium Release: 2026-02-05	GPT-5.4 Nano GPT-5.4 Nano medium Release: 2026-03-17
Score	7.5	7.4
Rank	#34	#35
Consistency	9.0	9.0
Tests Correct
Attempt pass rate	68.6%	66.7%
Flaky tests	2	2
Total Runs	51	51
Cost per result	11.973	0.769
Total Cost	$1.317	$0.077
Input Price	$5.000 / 1M	$0.200 / 1M
Output Price	$25.000 / 1M	$1.250 / 1M
Output Tokens	26,343	2,474
Reasoning Tokens	17,434	54,516
Response Time (avg)	20.87s	11.08s
Response Time (max)	83.40s	94.06s
Response Time (total)	208.73s	188.39s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	986	1,071
GPT-5.4 Nano	8.3	10.0	75.0%	0		4.52s	683	2,254

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
GPT-5.4 Nano	9.8	10.0	100.0%	0		24.13s	349	5,719

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	691	757
GPT-5.4 Nano	10.0	10.0	100.0%	0		2.54s	234	516

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	14,642	8,687
GPT-5.4 Nano	5.9	7.2	55.6%	1		38.18s	60	43,325

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
GPT-5.4 Nano	4.5	10.0	0.0%	0		4.15s	179	443

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
GPT-5.4 Nano	9.8	10.0	100.0%	0		1.88s	95	521

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	7.7	10.0	66.7%	0		4.60s	531	637
GPT-5.4 Nano	4.0	7.1	22.2%	1		3.65s	640	1,356

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
GPT-5.4 Nano	10.0	10.0	100.0%	0		7.71s	234	382

Quick Compare

Switch Comparison Pair

Claude Opus 4.6mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6nonevsGPT-5.4 Nanomedium Claude Opus 4.6mediumvsGPT-5.2 Chatnone Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4 Nanomedium Claude Opus 4.6mediumvsGemini 3 Flash Previewnone Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewlow Gemini 3 Flash PreviewnonevsGPT-5.4 Nanomedium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4 Nanomedium GPT-5.4 NanomediumvsQwen3.5 Plus 2026-02-15none Gemma 4 31BnonevsGPT-5.4 Nanomedium GPT-5.4 NanomediumvsGLM 5none