AI BENCHY Compare

OpenAI: GPT-5.4 vs Qwen: Qwen3.6 27B

Last updated at: 2026-06-03

Metric	GPT-5.4 GPT-5.4 none Release: 2026-03-05	Qwen3.6 27B Qwen3.6 27B medium Release: 2026-04-20

Metric	GPT-5.4 GPT-5.4 none Release: 2026-03-05	Qwen3.6 27B Qwen3.6 27B medium Release: 2026-04-20
Score	5.6	6.6
Rank	#121	#84
Reliability	10.0	10.0
Consistency	9.1	8.1
Tests Correct
Attempt pass rate	38.3%	58.3%
Flaky tests	2	5
Total Runs	60	60
Cost per result	1.644	3.017
Total Cost	$0.116	$0.380
Input Price	$2.500 / 1M	$0.290 / 1M
Output Price	$15.000 / 1M	$3.200 / 1M
Total Input Tokens	31,593	36,541
Output Tokens	2,402	12,981
Reasoning Tokens	0	105,822
Response Time (avg)	1.45s	57.79s
Response Time (max)	2.95s	168.22s
Response Time (total)	29.00s	1155.83s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.4	3.2	8.0	8.3%	1		1.21s	606	406	0
Qwen3.6 27B	8.3	10.0	75.0%	0		12.62s	453	582	4,311

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.4	6.8	10.0	50.0%	0		1.99s	4,686	501	0
Qwen3.6 27B	6.6	10.0	50.0%	0		165.39s	2,216	4,760	26,668

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.4	3.0	10.0	0.0%	0		2.89s	11,019	291	0
Qwen3.6 27B	7.0	3.7	66.7%	1		83.07s	15,104	2,088	14,689

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.4	10.0	10.0	100.0%	0		1.04s	7,140	222	0
Qwen3.6 27B	3.5	1.4	50.0%	2		37.30s	7,778	568	9,404

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.4	5.3	7.2	44.4%	1		1.07s	723	50	0
Qwen3.6 27B	2.9	7.2	11.1%	1		73.38s	662	3,510	20,352

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.4	4.4	9.9	0.0%	0		1.78s	477	184	0
Qwen3.6 27B	6.5	3.4	66.7%	1		39.53s	516	81	3,045

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.4	6.5	10.0	50.0%	0		1.07s	660	81	0
Qwen3.6 27B	10.0	10.0	100.0%	0		37.96s	699	346	6,548

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.4	5.6	9.8	33.3%	0		1.44s	642	381	0
Qwen3.6 27B	7.7	10.0	66.7%	0		61.14s	696	255	12,044

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.4	10.0	10.0	100.0%	0		2.75s	5,445	246	0
Qwen3.6 27B	10.0	10.0	100.0%	0		16.88s	8,213	390	2,954

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.4	3.0	10.0	0.0%	0		990ms	195	40	0
Qwen3.6 27B	3.0	10.0	0.0%	0		80.99s	204	401	5,807

Quick Compare

Switch Comparison Pair

Gemini 3.1 Flash LitenonevsQwen3.6 27Bmedium GPT-5.5nonevsQwen3.6 27Bmedium Gemini 3.1 Flash LiteminimalvsQwen3.6 27Bmedium Gemma 4 31BnoneFree AvailablevsQwen3.6 27Bmedium MiniMax M2.5mediumvsGPT-5.4none CobuddymediumvsGPT-5.4none MiniMax M2.7mediumvsGPT-5.4none Mistral Small 4mediumvsGPT-5.4none Ring-2.6-1TnonevsQwen3.6 27Bmedium Gemini 2.5 FlashnonevsQwen3.6 27Bmedium GPT-5.4nonevsOwl Alphamedium Qwen3.6 27BmediumvsGLM 5none