Google: Gemini 3.1 Flash Lite vs OpenAI: gpt-oss-120b

The average score is effectively tied at 6.1 vs 6.1. gpt-oss-120b (medium) has the lower benchmark cost at $0.019 vs $0.047. Gemini 3.1 Flash Lite (minimal) is faster at 1.86s vs 21.91s, with pass rates of 51.5% vs 50.0%.

Recommended modelGemini 3.1 Flash Lite (minimal)It has the best score here (6.1), while responding about 11.8x faster than gpt-oss-120b (medium).

Last updated at: 2026-07-20

Metric	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite minimal Release: 2026-05-08	gpt-oss-120b gpt-oss-120b medium Release: 2025-08-05

Metric	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite minimal Release: 2026-05-08	gpt-oss-120b gpt-oss-120b medium Release: 2025-08-05
Score	6.1	6.1
Rank	#120	#121
Reliability	10.0	10.0
Consistency	8.9	8.0
Tests Correct
Attempt pass rate	51.5%	50.0%
Flaky tests	3	5
Total Runs	66	66
Cost per result	0.465	0.221
Total Cost	$0.047	$0.019
Input Price	$0.250 / 1M	$0.037 / 1M
Output Price	$1.500 / 1M	$0.170 / 1M
Total Input Tokens	119,065	108,747
Output Tokens	11,118	29,772
Reasoning Tokens	0	68,044
Response Time (avg)	1.86s	21.91s
Response Time (max)	12.97s	68.16s
Response Time (total)	40.88s	328.70s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#120 Gemini 3.1 Flash Lite

minimal

Cost: $0.001
Time: 3.7s
Tokens: 635 tok

#121 gpt-oss-120b

medium

Cost: $0.001
Time: 26.7s
Tokens: 555 tok

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Category:

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	8.3	10.0	75.0%	0		1.10s	500	639	0
gpt-oss-120b	6.7	9.9	50.0%	0		10.21s	1,314	3,518	2,177

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	5.5	10.0	33.3%	0		831ms	8,126	666	0
gpt-oss-120b	5.9	7.0	55.6%	1		38.37s	7,782	3,365	11,973

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		7.75s	94,962	8,988	0
gpt-oss-120b	6.5	10.0	50.0%	0		23.96s	81,198	10,453	22,883

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		1.04s	7,552	279	0
gpt-oss-120b	6.4	5.9	66.7%	1		1.98s	7,476	241	1,114

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	2.9	7.2	11.1%	1		1.02s	641	15	0
gpt-oss-120b	2.9	4.4	22.2%	2		50.92s	1,266	6,784	20,606

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	4.0	10.0	0.0%	0		791ms	490	63	0
gpt-oss-120b	4.3	10.0	0.0%	0		7.90s	659	107	387

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		932ms	615	72	0
gpt-oss-120b	9.9	10.0	100.0%	0		7.63s	1,036	126	1,799

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	6.0	4.6	66.7%	2		2.15s	564	153	0
gpt-oss-120b	5.3	7.2	44.4%	1		21.71s	1,190	1,790	2,264

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		3.51s	5,457	234	0
gpt-oss-120b	9.8	10.0	100.0%	0		6.91s	6,514	287	1,083

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		724ms	158	9	0
gpt-oss-120b	3.0	10.0	0.0%	0		26.51s	312	3,101	3,758

Quick Compare

Switch Comparison Pair

Gemini 3.1 Flash Litenonevsgpt-oss-120bmedium gpt-oss-120bmediumvsInklinglow gpt-oss-120bmediumvsQwen3.6 Flashnone Gemini 3.1 Flash LiteminimalvsQwen3.5-35B-A3Bmedium gpt-oss-120bmediumvsQwen3.5-Flashnone Gemini 3.1 Flash LiteminimalvsInklinglow gpt-oss-120bmediumvsQwen3.5 Plus 2026-04-20none gpt-oss-120bmediumvsQwen3.5-35B-A3Bnone Gemini 3.1 Flash LiteminimalvsQwen3.6 Flashnone Gemini 2.5 Flashnonevsgpt-oss-120bmedium Gemini 3.1 Flash LiteminimalvsQwen3.5-Flashnone Gemini 3.1 Flash LiteminimalvsQwen3.5 Plus 2026-04-20none