AI BENCHY Compare

OpenAI: GPT-5.4 Nano vs Qwen: Qwen3.5-9B

Last updated at: 2026-05-01

Metric	GPT-5.4 Nano GPT-5.4 Nano none Release: 2026-03-17	Qwen3.5-9B Qwen3.5-9B none Release: 2026-03-02

Metric	GPT-5.4 Nano GPT-5.4 Nano none Release: 2026-03-17	Qwen3.5-9B Qwen3.5-9B none Release: 2026-03-02
Score	4.6	4.8
Rank	#127	#124
Reliability	N/A	N/A
Consistency	7.4	9.6
Tests Correct
Attempt pass rate	33.3%	24.1%
Flaky tests	6	1
Total Runs	54	54
Cost per result	0.299	0.116
Total Cost	$0.009	$0.005
Input Price	$0.200 / 1M	$0.100 / 1M
Output Price	$1.250 / 1M	$0.150 / 1M
Output Tokens	2,762	3,951
Reasoning Tokens	0	0
Response Time (avg)	1.40s	1.47s
Response Time (max)	3.84s	5.91s
Response Time (total)	25.14s	26.43s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	3.5	8.0	16.7%	1		1.18s	800	0
Qwen3.5-9B	3.1	9.9	0.0%	0		1.71s	582	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	7.1	3.7	66.7%	1		1.43s	577	0
Qwen3.5-9B	5.2	3.4	33.3%	1		5.69s	1,006	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	3.0	10.0	0.0%	0		3.84s	280	0
Qwen3.5-9B	3.0	10.0	0.0%	0		5.91s	1,255	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	6.5	10.0	50.0%	0		1.11s	219	0
Qwen3.5-9B	10.0	10.0	100.0%	0		847ms	249	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	2.9	4.4	22.2%	2		926ms	52	0
Qwen3.5-9B	3.0	10.0	0.0%	0		464ms	24	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	3.8	2.5	33.3%	1		1.31s	180	0
Qwen3.5-9B	4.4	9.9	0.0%	0		552ms	99	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	6.3	10.0	50.0%	0		787ms	84	0
Qwen3.5-9B	6.5	10.0	50.0%	0		514ms	75	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	3.7	7.3	22.2%	1		1.29s	348	0
Qwen3.5-9B	3.2	9.9	0.0%	0		683ms	388	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.4 Nano	10.0	10.0	100.0%	0		3.40s	222	0
Qwen3.5-9B	10.0	10.0	100.0%	0		1.27s	273	0

Quick Compare

Switch Comparison Pair

GPT-5.4 NanononevsGLM 4.7 Flashmedium Qwen3.5-9BnonevsGLM 4.7 Flashmedium GPT-5.4 NanononevsQwen3.5-9Bmedium GPT-5.4 NanononevsQwen3 Coder Nextmedium Nemotron 3 Nano Omni 30b A3b ReasoningmediumFree AvailablevsQwen3.5-9Bnone Elephant AlphamediumvsQwen3.5-9Bnone MiniMax M2.7mediumvsQwen3.5-9Bnone Nemotron 3 Nano Omni 30b A3b ReasoningmediumFree AvailablevsGPT-5.4 Nanonone GPT-5.4 NanononevsElephant Alphamedium MiniMax M2.7mediumvsGPT-5.4 Nanonone MiniMax M2.5mediumFree AvailablevsQwen3.5-9Bnone Mistral Small 4mediumvsQwen3.5-9Bnone