AI BENCHY Compare

OpenAI: GPT-5.4 vs Qwen: Qwen3.6 Flash

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-04-27

Metrică	GPT-5.4 GPT-5.4 none Lansare: 2026-03-05	Qwen3.6 Flash Qwen3.6 Flash none Lansare: 2026-04-20

Metrică	GPT-5.4 GPT-5.4 none Lansare: 2026-03-05	Qwen3.6 Flash Qwen3.6 Flash none Lansare: 2026-04-20
Scor	5.9	5.8
Rang	#84	#90
Fiabilitate	N/D	10.0
Consistență	9.1	10.0
Teste corecte
Rată de trecere pe încercare	42.6%	38.9%
Teste instabile	2	0
Rulări totale	54	54
Cost per rezultat	1.477	0.250
Cost total	$0.104	$0.018
Preț de intrare	$2.500 / 1M	$0.250 / 1M
Preț de ieșire	$15.000 / 1M	$1.500 / 1M
Tokenuri de ieșire	2,317	4,161
Tokenuri de raționament	0	0
Timp de răspuns (mediu)	1.51s	1.65s
Timp de răspuns (maxim)	2.95s	4.60s
Timp de răspuns (total)	27.21s	29.78s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	3.2	8.0	8.3%	1		1.21s	406	0
Qwen3.6 Flash	3.1	10.0	0.0%	0		1.63s	1,554	0

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	10.0	10.0	100.0%	0		2.95s	480	0
Qwen3.6 Flash	10.0	10.0	100.0%	0		2.23s	867	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	3.0	10.0	0.0%	0		2.89s	291	0
Qwen3.6 Flash	3.0	10.0	0.0%	0		4.22s	315	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	10.0	10.0	100.0%	0		1.04s	222	0
Qwen3.6 Flash	10.0	10.0	100.0%	0		2.13s	243	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	5.3	7.2	44.4%	1		1.07s	50	0
Qwen3.6 Flash	5.3	10.0	33.3%	0		1.11s	15	0

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	4.4	9.9	0.0%	0		1.78s	184	0
Qwen3.6 Flash	10.0	10.0	100.0%	0		947ms	132	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	6.5	10.0	50.0%	0		1.07s	81	0
Qwen3.6 Flash	6.3	10.0	50.0%	0		1.10s	66	0

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	5.6	9.8	33.3%	0		1.52s	357	0
Qwen3.6 Flash	3.5	10.0	0.0%	0		1.20s	697	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0
Qwen3.6 Flash	10.0	10.0	100.0%	0		2.49s	272	0

Comparație rapidă

Schimbă perechea de comparație

gpt-oss-120bmediumDisponibil gratuitvsQwen3.6 Flashnone MiniMax M2.5mediumDisponibil gratuitvsQwen3.6 Flashnone Mistral Small 4mediumvsQwen3.6 Flashnone MiniMax M2.5mediumDisponibil gratuitvsGPT-5.4none Mistral Small 4mediumvsGPT-5.4none GPT-5 NanomediumvsQwen3.6 Flashnone MiniMax M2.7mediumvsQwen3.6 Flashnone Elephant AlphamediumvsQwen3.6 Flashnone Mercury 2mediumvsGPT-5.4none MiniMax M2.7mediumvsGPT-5.4none GPT-5.4nonevsElephant Alphamedium Mercury 2mediumvsQwen3.6 Flashnone