AI BENCHY Compare

Mistral: Mistral Small 4 vs Qwen: Qwen3 Coder Next

Last updated at: 2026-04-04

Metric	Mistral Small 4 Mistral Small 4 none Release: 2026-03-16	Qwen3 Coder Next Qwen3 Coder Next none Release: 2026-02-03

Metric	Mistral Small 4 Mistral Small 4 none Release: 2026-03-16	Qwen3 Coder Next Qwen3 Coder Next none Release: 2026-02-03
Score	5.3	5.0
Rank	#75	#79
Consistency	9.5	10.0
Tests Correct
Attempt pass rate	33.3%	23.5%
Flaky tests	1	0
Total Runs	51	51
Cost per result	0.108	0.175
Total Cost	$0.006	$0.007
Input Price	$0.150 / 1M	$0.120 / 1M
Output Price	$0.600 / 1M	$0.750 / 1M
Output Tokens	1,624	3,032
Reasoning Tokens	0	0
Response Time (avg)	629ms	10.82s
Response Time (max)	1.72s	45.14s
Response Time (total)	10.70s	118.99s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mistral Small 4	3.4	7.9	16.7%	1		395ms	182	0
Qwen3 Coder Next	3.6	10.0	0.0%	0		3.31s	1,321	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mistral Small 4	3.0	10.0	0.0%	0		1.72s	496	0
Qwen3 Coder Next	3.0	10.0	0.0%	0		45.14s	317	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mistral Small 4	10.0	10.0	100.0%	0		822ms	261	0
Qwen3 Coder Next	6.5	10.0	50.0%	0		1.32s	246	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mistral Small 4	5.3	10.0	33.3%	0		367ms	28	0
Qwen3 Coder Next	5.3	10.0	33.3%	0		962ms	26	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mistral Small 4	4.0	10.0	0.0%	0		729ms	205	0
Qwen3 Coder Next	10.0	10.0	100.0%	0		1.34s	152	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mistral Small 4	6.5	10.0	50.0%	0		380ms	69	0
Qwen3 Coder Next	4.8	10.0	0.0%	0		7.71s	63	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mistral Small 4	3.1	9.9	0.0%	0		589ms	170	0
Qwen3 Coder Next	3.2	10.0	0.0%	0		22.86s	652	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mistral Small 4	10.0	10.0	100.0%	0		1.40s	213	0
Qwen3 Coder Next	10.0	10.0	100.0%	0		2.47s	255	0

Quick Compare

Switch Comparison Pair

MiniMax M2.7mediumvsQwen3 Coder Nextnone MiniMax M2.7mediumvsMistral Small 4none Qwen3 Coder NextnonevsGLM 4.7 Flashmedium Mistral Small 4nonevsQwen3 Coder Nextmedium Mistral Small 4nonevsGLM 4.7 Flashmedium Mistral Small 4mediumvsQwen3 Coder Nextnone MiniMax M2.5mediumFree AvailablevsMistral Small 4none Mistral Small 4nonevsgpt-oss-120bmediumFree Available Mistral Small 4nonevsQwen3.5-9Bmedium MiniMax M2.5mediumFree AvailablevsQwen3 Coder Nextnone Mistral Small 4nonevsGrok 4.20 Multi Agent Betamedium gpt-oss-120bmediumFree AvailablevsQwen3 Coder Nextnone