AI BENCHY Compare

OpenAI: GPT-5.5 vs OpenAI: gpt-oss-120b

Summary

GPT-5.5 vs gpt-oss-120b benchmark comparison: GPT-5.5 leads on average score with 9.3 vs 6.7. gpt-oss-120b has the lower benchmark cost at $0.011 vs $0.907. GPT-5.5 is faster at 9.76s vs 22.28s, with pass rates of 85.7% vs 52.4%.

Recommended model: GPT-5.5 - It has the best score here (9.3), while responding about 2.3x faster than gpt-oss-120b.

Last updated at: 2026-07-02

Metric	GPT-5.5 GPT-5.5 low Release: 2026-04-24	gpt-oss-120b gpt-oss-120b medium Release: 2025-08-05 Free Available

Metric	GPT-5.5 GPT-5.5 low Release: 2026-04-24	gpt-oss-120b gpt-oss-120b medium Release: 2025-08-05 Free Available
Score	9.3	6.7
Rank	#4	#81
Reliability	10.0	10.0
Consistency	10.0	8.0
Tests Correct
Attempt pass rate	85.7%	52.4%
Flaky tests	0	5
Total Runs	63	63
Cost per result	5.035	0.141
Total Cost	$0.907	$0.011
Input Price	$5.000 / 1M	$0.030 / 1M
Output Price	$30.000 / 1M	$0.150 / 1M
Total Input Tokens	34,209	39,084
Output Tokens	2,046	20,013
Reasoning Tokens	22,460	50,233
Response Time (avg)	9.76s	22.28s
Response Time (max)	56.19s	68.16s
Response Time (total)	204.92s	311.96s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#4 GPT-5.5

low

Cost: $0.068
Time: 37.0s
Tokens: 2,339 tok

#81 gpt-oss-120b

medium

Cost: $0.001
Time: 26.7s
Tokens: 555 tok

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.5	10.0	10.0	100.0%	0		4.41s	606	238	1,020
gpt-oss-120b	6.7	9.9	50.0%	0		10.21s	1,314	3,518	2,177

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.5	10.0	10.0	100.0%	0		15.04s	7,302	423	6,402
gpt-oss-120b	5.9	7.0	55.6%	1		38.37s	7,782	3,365	11,973

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.5	10.0	10.0	100.0%	0		9.56s	11,019	303	717
gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	11,535	694	5,072

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.5	10.0	10.0	100.0%	0		3.28s	7,140	228	157
gpt-oss-120b	6.4	5.9	66.7%	1		1.98s	7,476	241	1,114

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.5	5.3	10.0	33.3%	0		28.05s	723	69	11,609
gpt-oss-120b	2.9	4.4	22.2%	2		50.92s	1,266	6,784	20,606

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.5	10.0	10.0	100.0%	0		5.17s	477	133	245
gpt-oss-120b	4.3	10.0	0.0%	0		7.90s	659	107	387

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.5	9.9	10.0	100.0%	0		3.74s	660	93	415
gpt-oss-120b	9.9	10.0	100.0%	0		7.63s	1,036	126	1,799

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.5	10.0	10.0	100.0%	0		4.74s	642	279	954
gpt-oss-120b	5.3	7.2	44.4%	1		21.71s	1,190	1,790	2,264

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.5	10.0	10.0	100.0%	0		4.96s	5,445	250	101
gpt-oss-120b	9.8	10.0	100.0%	0		6.91s	6,514	287	1,083

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.5	3.0	10.0	0.0%	0		10.06s	195	30	840
gpt-oss-120b	3.0	10.0	0.0%	0		26.51s	312	3,101	3,758

Quick Compare

Switch Comparison Pair

GPT-5.5lowvsQwen3.7 Maxmedium Claude Fable 5mediumvsGPT-5.5low Gemini 3.1 Pro PreviewmediumvsGPT-5.5low Gemini 3.5 Flashminimalvsgpt-oss-120bmediumFree Available gpt-oss-120bmediumFree AvailablevsQwen3.7 Maxnone Gemini 3.1 Flash Lite Previewlowvsgpt-oss-120bmediumFree Available Gemini 3.5 FlashmediumvsGPT-5.5low Gemini 3 Flash Previewnonevsgpt-oss-120bmediumFree Available Gemini 3.1 Flash Lite Previewnonevsgpt-oss-120bmediumFree Available Gemini 3.1 Flash Litelowvsgpt-oss-120bmediumFree Available Gemini 3 Flash PreviewmediumvsGPT-5.5low Gemini 3.5 Flashnonevsgpt-oss-120bmediumFree Available