Compare Charts Methodology

Language:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.3 Chat vs Qwen: Qwen3.5-Flash

Compare:

Last updated at: 2026-03-06

Metric	OpenAI: GPT-5.3 Chat none Release: 2026-03-03	Qwen: Qwen3.5-Flash medium Release: 2026-02-24
Avg Score	7.4	7.2
Rank	#18	#22
Tests Correct
Consistency	8.5	7.9
Cost per result	3.129	0.552
Total Cost	$0.313	$0.061
Attempt pass rate	70.8%	83.3%
Flaky tests	3	4
common.totalRuns	46 (16 x 2.88)	46 (16 x 2.88)
Output Tokens	19,069	1,736
Reasoning Tokens	0	141,900
Response Time (avg)	5.97s	70.90s
Response Time (max)	18.33s	234.29s
Response Time (total)	95.56s	1134.43s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Avg Score vs Response Time (avg)

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.3 Chat	7.3	7.5	77.8%	1		4.72s	3,091	0
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		71.35s	363	23,645

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	2,614	0
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		17.78s	483	8,270

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.3 Chat	9.9	10.0	100.0%	0		2.21s	942	0
Qwen: Qwen3.5-Flash	5.5	5.9	83.3%	1		56.99s	235	16,237

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.3 Chat	10.0	4.4	33.3%	2		13.01s	8,264	0
Qwen: Qwen3.5-Flash	4.0	7.2	44.4%	1		146.50s	58	43,615

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.3 Chat	5.0	10.0	0.0%	0		2.25s	116	0
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		41.59s	28	10,434

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.3 Chat	9.0	10.0	50.0%	0		3.29s	1,455	0
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		63.49s	98	14,139

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		2.93s	1,726	0
Qwen: Qwen3.5-Flash	4.0	4.4	77.8%	2		56.74s	162	24,276

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	861	0
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		10.33s	309	1,284

Quick Compare

Switch Comparison Pair

Gemini 2.5 FlashmediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsStep 3.5 FlashmediumFree Available Gemini 3 Flash PreviewnonevsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-Flashmedium Claude Sonnet 4.6nonevsQwen3.5-Flashmedium GPT-5.3 ChatnonevsMiMo-V2-Flashmedium Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGLM 5medium DeepSeek V3.2mediumvsGPT-5.3 Chatnone