Compare Charts Methodology

Language:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5 Mini vs Qwen: Qwen3.5-Flash

Compare:

Last updated at: 2026-03-06

Metric	OpenAI: GPT-5 Mini medium Release: 2025-08-07	Qwen: Qwen3.5-Flash none Release: 2026-02-24
Avg Score	6.1	4.9
Rank	#32	#41
Tests Correct
Consistency	8.9	9.5
Cost per result	1.401	0.088
Total Cost	$0.113	$0.006
Attempt pass rate	62.2%	42.2%
Flaky tests	2	1
common.totalRuns	45 (15 x 3)	45 (15 x 3)
Output Tokens	5,477	3,674
Reasoning Tokens	46,912	0
Response Time (avg)	25.92s	3.73s
Response Time (max)	88.15s	13.73s
Response Time (total)	388.79s	55.90s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Avg Score vs Response Time (avg)

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5 Mini	7.0	9.6	66.7%	0		16.45s	1,645	5,824
Qwen: Qwen3.5-Flash	2.3	7.8	11.1%	1		1.62s	687	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5 Mini	10.0	10.0	100.0%	0		88.15s	754	11,520
Qwen: Qwen3.5-Flash	10.0	10.0	0.0%	0		6.22s	1,794	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5 Mini	9.9	10.0	100.0%	0		12.58s	453	3,200
Qwen: Qwen3.5-Flash	9.9	10.0	100.0%	0		1.57s	243	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5 Mini	10.0	7.2	22.2%	1		44.63s	293	14,016
Qwen: Qwen3.5-Flash	7.0	10.0	66.7%	0		905ms	15	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5 Mini	7.5	6.6	83.3%	1		15.66s	318	4,992
Qwen: Qwen3.5-Flash	5.0	10.0	50.0%	0		8.81s	63	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5 Mini	4.3	9.8	33.3%	0		14.09s	1,527	5,760
Qwen: Qwen3.5-Flash	1.3	10.0	0.0%	0		5.90s	608	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5 Mini	10.0	10.0	100.0%	0		18.64s	487	1,600
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		3.67s	264	0

Quick Compare

Switch Comparison Pair

MiniMax M2.5mediumvsQwen3.5-Flashnone GPT-5 MinimediumvsGLM 5none gpt-oss-120bmediumFree AvailablevsQwen3.5-Flashnone GPT-5 MinimediumvsQwen3.5 Plus 2026-02-15none Mercury 2mediumvsQwen3.5-Flashnone GPT-5 NanomediumvsQwen3.5-Flashnone Claude Sonnet 4.6nonevsGPT-5 Minimedium Gemini 2.5 FlashnonevsGPT-5 Minimedium DeepSeek V3.2nonevsGPT-5 Minimedium Gemini 3 Flash PreviewnonevsGPT-5 Minimedium GPT-5 MinimediumvsQwen3.5-122B-A10Bnone GPT-5 MinimediumvsQwen3.5-27Bnone