Mistral: Mistral Small 4 vs Qwen: Qwen3.5-9B

Mistral Small 4 leads on average score with 5.1 vs 5.1. Qwen3.5-9B has the lower benchmark cost at $0.021 vs $0.022. Mistral Small 4 is faster at 1.20s vs 19.17s, with pass rates of 25.8% vs 19.7%.

Recommended modelMistral Small 4It has the best score here (5.1), while responding about 16.0x faster than Qwen3.5-9B.

Last updated at: 2026-07-25

Metric	Mistral Small 4 Mistral Small 4 none Release: 2026-03-16	Qwen3.5-9B Qwen3.5-9B none Release: 2026-03-02

Metric	Mistral Small 4 Mistral Small 4 none Release: 2026-03-16	Qwen3.5-9B Qwen3.5-9B none Release: 2026-03-02
Score	5.1	5.1
Rank	#179	#183
Reliability	10.0	10.0
Consistency	9.6	9.7
Tests Correct
Attempt pass rate	25.8%	19.7%
Flaky tests	1	1
Total Runs	66	66
Cost per result	0.432	0.490
Total Cost	$0.022	$0.021
Input Price	$0.150 / 1M	$0.100 / 1M
Output Price	$0.600 / 1M	$0.150 / 1M
Total Input Tokens	104,708	144,407
Output Tokens	9,812	37,484
Reasoning Tokens	0	0
Response Time (avg)	1.20s	19.17s
Response Time (max)	13.16s	382.06s
Response Time (total)	26.38s	421.74s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#179 Mistral Small 4

none

Cost: $0.002
Time: 10.4s
Tokens: 2,370 tok

#183 Qwen3.5-9B

none

Invalid SVG

Cost: $0.000
Time: 300.0s
Tokens: 0 tok

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Category:

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mistral Small 4	3.4	7.9	16.7%	1		395ms	708	182	0
Qwen3.5-9B	3.1	9.9	0.0%	0		1.71s	696	582	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mistral Small 4	3.7	9.7	0.0%	0		901ms	7,636	619	0
Qwen3.5-9B	3.9	7.8	11.1%	1		5.60s	7,913	1,042	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mistral Small 4	3.0	10.0	0.0%	0		7.44s	79,039	8,107	0
Qwen3.5-9B	3.0	10.0	0.0%	0		193.98s	116,763	34,787	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mistral Small 4	10.0	10.0	100.0%	0		822ms	7,914	261	0
Qwen3.5-9B	10.0	10.0	100.0%	0		847ms	7,788	249	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mistral Small 4	5.3	10.0	33.3%	0		367ms	798	28	0
Qwen3.5-9B	3.0	10.0	0.0%	0		464ms	789	24	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mistral Small 4	4.0	10.0	0.0%	0		729ms	519	205	0
Qwen3.5-9B	4.4	9.9	0.0%	0		552ms	522	99	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mistral Small 4	6.5	10.0	50.0%	0		380ms	729	69	0
Qwen3.5-9B	6.5	10.0	50.0%	0		514ms	711	75	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mistral Small 4	3.1	9.9	0.0%	0		399ms	735	111	0
Qwen3.5-9B	3.2	10.0	0.0%	0		621ms	714	347	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mistral Small 4	10.0	10.0	100.0%	0		1.40s	6,420	213	0
Qwen3.5-9B	10.0	10.0	100.0%	0		1.27s	8,301	273	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mistral Small 4	3.0	10.0	0.0%	0		397ms	210	17	0
Qwen3.5-9B	3.0	10.0	0.0%	0		2.32s	210	6	0

Quick Compare

Switch Comparison Pair

Mistral Small 4mediumvsQwen3.5-9Bnone MiniMax M2.7mediumvsQwen3.5-9Bnone Laguna S 2.1lowFree AvailablevsQwen3.5-9Bnone MiniMax M2.7mediumvsMistral Small 4none Mistral Small 4nonevsLaguna S 2.1lowFree Available Mistral Small 4nonevsLaguna S 2.1highFree Available KAT-Coder-Air V2.5lowvsMistral Small 4none Mistral Small 4nonevsLaguna S 2.1mediumFree Available Laguna S 2.1highFree AvailablevsQwen3.5-9Bnone KAT-Coder-Air V2.5lowvsQwen3.5-9Bnone Laguna S 2.1mediumFree AvailablevsQwen3.5-9Bnone CobuddymediumvsQwen3.5-9Bnone