Compare Charts Methodology

Language:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.3 Chat vs Qwen: Qwen3.5-27B

Compare:

Last updated at: 2026-03-06

Metric	OpenAI: GPT-5.3 Chat none Release: 2026-03-03	Qwen: Qwen3.5-27B medium Release: 2026-02-24
Avg Score	7.5	8.5
Rank	#19	#5
Tests Correct
Consistency	8.4	9.5
Cost per result	3.110	3.283
Total Cost	$0.311	$0.394
Attempt pass rate	75.6%	82.2%
Flaky tests	3	1
common.totalRuns	45 (15 x 3)	45 (15 x 3)
Output Tokens	18,953	1,588
Reasoning Tokens	0	177,639
Response Time (avg)	6.22s	48.85s
Response Time (max)	18.33s	163.96s
Response Time (total)	93.31s	732.75s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Avg Score vs Response Time (avg)

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.3 Chat	7.3	7.5	77.8%	1		4.72s	3,091	0
Qwen: Qwen3.5-27B	10.0	10.0	100.0%	0		9.69s	102	8,956

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	2,614	0
Qwen: Qwen3.5-27B	10.0	10.0	100.0%	0		163.96s	483	9,991

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.3 Chat	9.9	10.0	100.0%	0		2.21s	942	0
Qwen: Qwen3.5-27B	9.9	10.0	100.0%	0		30.26s	270	16,150

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.3 Chat	10.0	4.4	33.3%	2		13.01s	8,264	0
Qwen: Qwen3.5-27B	4.0	10.0	33.3%	0		79.53s	43	52,368

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.3 Chat	9.0	10.0	50.0%	0		3.29s	1,455	0
Qwen: Qwen3.5-27B	10.0	10.0	100.0%	0		19.66s	97	11,638

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		2.93s	1,726	0
Qwen: Qwen3.5-27B	8.3	7.7	77.8%	1		64.61s	245	77,213

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	861	0
Qwen: Qwen3.5-27B	10.0	10.0	100.0%	0		7.45s	348	1,323

Quick Compare

Switch Comparison Pair

GPT-5.3 ChatnonevsGLM 5medium GPT-5.3 ChatnonevsMiMo-V2-Flashmedium GPT-5.3 ChatnonevsStep 3.5 FlashmediumFree Available Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Gemini 2.5 FlashmediumvsGPT-5.3 Chatnone DeepSeek V3.2mediumvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3 Chatnone Gemini 3 Flash PreviewlowvsQwen3.5-27Bmedium Gemini 3.1 Flash Lite PreviewhighvsQwen3.5-27Bmedium Seed-2.0-MinimediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsQwen3.5-Flashmedium