AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs OpenAI: gpt-oss-120b

Last updated at: 2026-04-29

Metric	Claude Opus 4.6 Claude Opus 4.6 medium Release: 2026-02-05	gpt-oss-120b gpt-oss-120b medium Release: 2025-08-05 Free Available

Metric	Claude Opus 4.6 Claude Opus 4.6 medium Release: 2026-02-05	gpt-oss-120b gpt-oss-120b medium Release: 2025-08-05 Free Available
Score	7.6	5.8
Rank	#49	#88
Reliability	N/A	N/A
Consistency	9.1	7.2
Tests Correct
Attempt pass rate	70.4%	51.9%
Flaky tests	2	6
Total Runs	54	54
Cost per result	12.047	0.144
Total Cost	$1.446	$0.011
Input Price	$5.000 / 1M	$0.000 / 1M
Output Price	$25.000 / 1M	$0.000 / 1M
Output Tokens	29,829	13,493
Reasoning Tokens	18,938	36,879
Response Time (avg)	21.08s	16.08s
Response Time (max)	83.40s	50.92s
Response Time (total)	231.84s	176.88s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	986	1,071
gpt-oss-120b	6.7	9.9	50.0%	0		10.21s	3,518	2,177

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		23.11s	3,486	1,504
gpt-oss-120b	4.3	1.1	66.7%	1		26.33s	228	2,549

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	694	5,072

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	691	757
gpt-oss-120b	6.4	5.9	66.7%	1		1.98s	241	1,114

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	14,642	8,687
gpt-oss-120b	2.9	4.4	22.2%	2		50.92s	6,784	20,606

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
gpt-oss-120b	4.3	10.0	0.0%	0		7.90s	107	387

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
gpt-oss-120b	9.9	10.0	100.0%	0		7.63s	126	1,799

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	7.7	10.0	66.7%	0		4.60s	531	637
gpt-oss-120b	3.2	4.7	22.2%	2		11.80s	1,508	2,092

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
gpt-oss-120b	9.8	10.0	100.0%	0		6.91s	287	1,083

Quick Compare

Switch Comparison Pair

Kimi K2.6nonevsgpt-oss-120bmediumFree Available gpt-oss-120bmediumFree AvailablevsQwen3.5-27Bnone Claude Opus 4.6mediumvsGPT-5.3 Chatnone gpt-oss-120bmediumFree AvailablevsQwen3.5 Plus 2026-04-20none gpt-oss-120bmediumFree AvailablevsMiMo-V2.5-Pronone gpt-oss-120bmediumFree AvailablevsQwen3.6 Flashnone gpt-oss-120bmediumFree AvailablevsQwen3.5-122B-A10Bnone gpt-oss-120bmediumFree AvailablevsMiMo-V2-Pronone DeepSeek V3.2nonevsgpt-oss-120bmediumFree Available gpt-oss-120bmediumFree AvailablevsQwen3.6 27Bnone Claude Opus 4.6mediumvsDeepSeek V4 Flashhigh DeepSeek V4 Prononevsgpt-oss-120bmediumFree Available