Compare Charts Methodology

Language:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.4 vs Qwen: Qwen3.5 Plus 2026-02-15

Compare:

Last updated at: 2026-03-06

Metric	OpenAI: GPT-5.4 medium Release: 2026-03-05	Qwen: Qwen3.5 Plus 2026-02-15 none Release: 2026-02-15
Avg Score	8.2	6.4
Rank	#7	#27
Tests Correct
Consistency	8.9	10.0
Cost per result	6.533	0.168
Total Cost	$0.784	$0.016
Attempt pass rate	86.7%	60.0%
Flaky tests	2	0
common.totalRuns	45 (15 x 3)	45 (15 x 3)
Output Tokens	1,611	1,898
Reasoning Tokens	46,321	0
Response Time (avg)	21.06s	2.70s
Response Time (max)	100.41s	6.65s
Response Time (total)	315.95s	24.26s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Avg Score vs Response Time (avg)

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		5.02s	216	1,466
Qwen: Qwen3.5 Plus 2026-02-15	4.0	10.0	33.3%	0		2.74s	514	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		20.57s	301	3,543
Qwen: Qwen3.5 Plus 2026-02-15	10.0	10.0	0.0%	0		6.65s	314	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		5.32s	234	804
Qwen: Qwen3.5 Plus 2026-02-15	9.9	10.0	100.0%	0		1.89s	243	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		74.27s	61	34,748
Qwen: Qwen3.5 Plus 2026-02-15	4.0	10.0	33.3%	0		1.17s	17	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		3.11s	93	897
Qwen: Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		1.67s	72	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	7.0	7.2	88.9%	1		9.13s	442	3,832
Qwen: Qwen3.5 Plus 2026-02-15	7.0	10.0	66.7%	0		2.82s	516	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		13.28s	264	1,031
Qwen: Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		3.33s	222	0

Quick Compare

Switch Comparison Pair

Qwen3.5 Plus 2026-02-15nonevsGrok 4.1 Fastmedium Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none Claude Opus 4.6mediumvsQwen3.5 Plus 2026-02-15none Gemini 3 Flash PreviewlowvsGPT-5.4medium Gemini 3.1 Flash Lite PreviewhighvsGPT-5.4medium GPT-5 MinimediumvsQwen3.5 Plus 2026-02-15none GPT-5.2mediumvsQwen3.5 Plus 2026-02-15none Seed-2.0-MinimediumvsQwen3.5 Plus 2026-02-15none Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium GPT-5 NanomediumvsQwen3.5 Plus 2026-02-15none Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4medium Gemini 3.1 Flash Lite PreviewmediumvsQwen3.5 Plus 2026-02-15none