AI BENCHY Compare

Mistral: Mistral Small 4 vs OpenAI: gpt-oss-120b

Last updated at: 2026-05-01

Metric	Mistral Small 4 Mistral Small 4 none Release: 2026-03-16	gpt-oss-120b gpt-oss-120b medium Release: 2025-08-05 Free Available

Metric	Mistral Small 4 Mistral Small 4 none Release: 2026-03-16	gpt-oss-120b gpt-oss-120b medium Release: 2025-08-05 Free Available
Score	5.2	5.8
Rank	#115	#91
Reliability	N/A	N/A
Consistency	9.5	7.2
Tests Correct
Attempt pass rate	31.5%	51.9%
Flaky tests	1	6
Total Runs	54	54
Cost per result	0.118	0.144
Total Cost	$0.006	$0.011
Input Price	$0.150 / 1M	$0.000 / 1M
Output Price	$0.600 / 1M	$0.000 / 1M
Output Tokens	2,207	13,493
Reasoning Tokens	0	36,879
Response Time (avg)	665ms	16.08s
Response Time (max)	1.72s	50.92s
Response Time (total)	11.97s	176.88s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mistral Small 4	3.4	7.9	16.7%	1		395ms	182	0
gpt-oss-120b	6.7	9.9	50.0%	0		10.21s	3,518	2,177

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mistral Small 4	4.5	9.0	0.0%	0		1.28s	583	0
gpt-oss-120b	4.3	1.1	66.7%	1		26.33s	228	2,549

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mistral Small 4	3.0	10.0	0.0%	0		1.72s	496	0
gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	694	5,072

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mistral Small 4	10.0	10.0	100.0%	0		822ms	261	0
gpt-oss-120b	6.4	5.9	66.7%	1		1.98s	241	1,114

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mistral Small 4	5.3	10.0	33.3%	0		367ms	28	0
gpt-oss-120b	2.9	4.4	22.2%	2		50.92s	6,784	20,606

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mistral Small 4	4.0	10.0	0.0%	0		729ms	205	0
gpt-oss-120b	4.3	10.0	0.0%	0		7.90s	107	387

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mistral Small 4	6.5	10.0	50.0%	0		380ms	69	0
gpt-oss-120b	9.9	10.0	100.0%	0		7.63s	126	1,799

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mistral Small 4	3.1	9.9	0.0%	0		589ms	170	0
gpt-oss-120b	3.2	4.7	22.2%	2		11.80s	1,508	2,092

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mistral Small 4	10.0	10.0	100.0%	0		1.40s	213	0
gpt-oss-120b	9.8	10.0	100.0%	0		6.91s	287	1,083

Quick Compare

Switch Comparison Pair

Kimi K2.6nonevsgpt-oss-120bmediumFree Available Mistral Small 4nonevsNemotron 3 Nano Omni 30b A3b ReasoningmediumFree Available Mistral Small 4nonevsElephant Alphamedium gpt-oss-120bmediumFree AvailablevsQwen3.5-122B-A10Bnone gpt-oss-120bmediumFree AvailablevsQwen3.5 Plus 2026-04-20none MiniMax M2.7mediumvsMistral Small 4none gpt-oss-120bmediumFree AvailablevsMiMo-V2.5-Pronone gpt-oss-120bmediumFree AvailablevsQwen3.6 Flashnone gpt-oss-120bmediumFree AvailablevsGLM 5.1none gpt-oss-120bmediumFree AvailablevsOwl Alphanone gpt-oss-120bmediumFree AvailablevsMiMo-V2-Pronone DeepSeek V3.2nonevsgpt-oss-120bmediumFree Available