AI BENCHY Compare

Mistral: Mistral Small 4 vs OpenAI: gpt-oss-120b

Last updated at: 2026-03-17

Metric	Mistral Small 4 Mistral Small 4 none Release: 2026-03-16	gpt-oss-120b gpt-oss-120b medium Release: 2025-08-05 Free Available

Metric	Mistral Small 4 Mistral Small 4 none Release: 2026-03-16	gpt-oss-120b gpt-oss-120b medium Release: 2025-08-05 Free Available
Rank	#61	#46
Score	5.3	6.0
Consistency	9.5	7.6
Cost per result	0.108	0.136
Total Cost	$0.006	$0.010
Tests Correct
Attempt pass rate	33.3%	51.0%
Flaky tests	1	5
Total Runs	51	51
Output Tokens	1,624	13,265
Reasoning Tokens	0	34,330
Response Time (avg)	629ms	15.05s
Response Time (max)	1.72s	50.92s
Response Time (total)	10.70s	150.55s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mistral Small 4	3.4	7.9	16.7%	1		395ms	182	0
gpt-oss-120b	6.7	9.9	50.0%	0		10.21s	3,518	2,177

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mistral Small 4	3.0	10.0	0.0%	0		1.72s	496	0
gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	694	5,072

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mistral Small 4	10.0	10.0	100.0%	0		822ms	261	0
gpt-oss-120b	6.4	5.9	66.7%	1		1.98s	241	1,114

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mistral Small 4	5.3	10.0	33.3%	0		367ms	28	0
gpt-oss-120b	2.9	4.4	22.2%	2		50.92s	6,784	20,606

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mistral Small 4	4.0	10.0	0.0%	0		729ms	205	0
gpt-oss-120b	4.3	10.0	0.0%	0		7.90s	107	387

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mistral Small 4	6.5	10.0	50.0%	0		380ms	69	0
gpt-oss-120b	9.9	10.0	100.0%	0		7.63s	126	1,799

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mistral Small 4	3.1	9.9	0.0%	0		589ms	170	0
gpt-oss-120b	3.2	4.7	22.2%	2		11.80s	1,508	2,092

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mistral Small 4	10.0	10.0	100.0%	0		1.40s	213	0
gpt-oss-120b	9.8	10.0	100.0%	0		6.91s	287	1,083

Quick Compare

Switch Comparison Pair

Seed-2.0-Litenonevsgpt-oss-120bmediumFree Available gpt-oss-120bmediumFree AvailablevsQwen3.5-Flashnone Gemini 2.5 Flashnonevsgpt-oss-120bmediumFree Available gpt-oss-120bmediumFree AvailablevsQwen3.5-35B-A3Bnone gpt-oss-120bmediumFree AvailablevsHunter Alphanone gpt-oss-120bmediumFree AvailablevsQwen3.5-122B-A10Bnone gpt-oss-120bmediumFree AvailablevsQwen3.5-27Bnone DeepSeek V3.2nonevsgpt-oss-120bmediumFree Available gpt-oss-120bmediumFree AvailablevsGLM 5 Turbonone gpt-oss-120bmediumFree AvailablevsGLM 4.7 Flashnone Mistral Small 4nonevsQwen3 Coder Nextmedium Mistral Small 4nonevsGLM 4.7 Flashmedium