Google: Gemini 3.1 Flash Lite vs OpenAI: gpt-oss-120b

The average score is effectively tied at 6.1 vs 6.1. gpt-oss-120b (medium) has the lower benchmark cost at $0.019 vs $0.046. Gemini 3.1 Flash Lite is faster at 1.75s vs 21.91s, with pass rates of 50.0% vs 50.0%.

Recommended modelGemini 3.1 Flash LiteIt has the best score here (6.1), while responding about 12.5x faster than gpt-oss-120b (medium).

Last updated at: 2026-07-20

Metric	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite none Release: 2026-05-08	gpt-oss-120b gpt-oss-120b medium Release: 2025-08-05

Metric	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite none Release: 2026-05-08	gpt-oss-120b gpt-oss-120b medium Release: 2025-08-05
Score	6.1	6.1
Rank	#122	#121
Reliability	10.0	10.0
Consistency	8.6	8.0
Tests Correct
Attempt pass rate	50.0%	50.0%
Flaky tests	4	5
Total Runs	66	66
Cost per result	0.507	0.221
Total Cost	$0.046	$0.019
Input Price	$0.250 / 1M	$0.037 / 1M
Output Price	$1.500 / 1M	$0.170 / 1M
Total Input Tokens	118,050	108,747
Output Tokens	10,723	29,772
Reasoning Tokens	0	68,044
Response Time (avg)	1.75s	21.91s
Response Time (max)	16.25s	68.16s
Response Time (total)	38.60s	328.70s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#122 Gemini 3.1 Flash Lite

none

Cost: $0.001
Time: 4.5s
Tokens: 727 tok

#121 gpt-oss-120b

medium

Cost: $0.001
Time: 26.7s
Tokens: 555 tok

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Category:

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	7.5	8.4	66.7%	1		1.07s	506	639	0
gpt-oss-120b	6.7	9.9	50.0%	0		10.21s	1,314	3,518	2,177

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	5.5	10.0	33.3%	0		938ms	8,128	666	0
gpt-oss-120b	5.9	7.0	55.6%	1		38.37s	7,782	3,365	11,973

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		9.49s	94,210	8,596	0
gpt-oss-120b	6.5	10.0	50.0%	0		23.96s	81,198	10,453	22,883

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		843ms	7,267	279	0
gpt-oss-120b	6.4	5.9	66.7%	1		1.98s	7,476	241	1,114

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	2.9	7.2	11.1%	1		762ms	647	15	0
gpt-oss-120b	2.9	4.4	22.2%	2		50.92s	1,266	6,784	20,606

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	4.0	10.0	0.0%	0		992ms	486	63	0
gpt-oss-120b	4.3	10.0	0.0%	0		7.90s	659	107	387

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		859ms	619	72	0
gpt-oss-120b	9.9	10.0	100.0%	0		7.63s	1,036	126	1,799

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	6.3	4.8	66.7%	2		720ms	570	150	0
gpt-oss-120b	5.3	7.2	44.4%	1		21.71s	1,190	1,790	2,264

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		2.97s	5,457	234	0
gpt-oss-120b	9.8	10.0	100.0%	0		6.91s	6,514	287	1,083

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		733ms	160	9	0
gpt-oss-120b	3.0	10.0	0.0%	0		26.51s	312	3,101	3,758

Quick Compare

Switch Comparison Pair

Gemini 3.1 Flash LitenonevsInklinglow gpt-oss-120bmediumvsInklinglow gpt-oss-120bmediumvsQwen3.6 Flashnone Gemini 3.1 Flash Liteminimalvsgpt-oss-120bmedium gpt-oss-120bmediumvsQwen3.5-Flashnone gpt-oss-120bmediumvsQwen3.5 Plus 2026-04-20none gpt-oss-120bmediumvsQwen3.5-35B-A3Bnone Gemini 2.5 Flashnonevsgpt-oss-120bmedium Gemini 3.1 Flash LitenonevsQwen3.5-35B-A3Bmedium Gemini 3.1 Flash LitenonevsGPT-5 Nanomedium Nemotron 3 UltranoneFree Availablevsgpt-oss-120bmedium Gemini 3.1 Flash LitenonevsStep 3.5 Flashmedium