AI BENCHY Compare

OpenAI: GPT-5.4 vs Qwen: Qwen3.6 35B A3B

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-05-22

Metrică	GPT-5.4 GPT-5.4 medium Lansare: 2026-03-05	Qwen3.6 35B A3B Qwen3.6 35B A3B medium Lansare: 2026-04-20

Metrică	GPT-5.4 GPT-5.4 medium Lansare: 2026-03-05	Qwen3.6 35B A3B Qwen3.6 35B A3B medium Lansare: 2026-04-20
Scor	7.9	7.8
Rang	#27	#30
Fiabilitate	10.0	9.4
Consistență	8.5	9.1
Teste corecte
Rată de trecere pe încercare	75.0%	70.4%
Teste instabile	4	2
Rulări totale	60	60
Cost per rezultat	8.767	1.050
Cost total	$1.140	$0.126
Preț de intrare	$2.500 / 1M	$0.150 / 1M
Preț de ieșire	$15.000 / 1M	$1.000 / 1M
Tokenuri de ieșire	2,222	18,325
Tokenuri de raționament	68,503	115,750
Timp de răspuns (mediu)	22.31s	17.26s
Timp de răspuns (maxim)	100.41s	86.11s
Timp de răspuns (total)	446.15s	310.77s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	8.3	10.0	75.0%	0		4.11s	240	1,511
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		6.02s	1,154	12,385

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	8.2	6.7	83.3%	1		54.98s	412	19,995
Qwen3.6 35B A3B	6.6	10.0	50.0%	0		59.35s	6,601	22,535

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	10.0	10.0	100.0%	0		20.57s	301	3,543
Qwen3.6 35B A3B	0.0	0.0	0.0%	0		0ms	0	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	10.0	10.0	100.0%	0		5.32s	234	804
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		12.99s	2,591	9,968

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	5.3	7.2	44.4%	1		74.27s	61	34,748
Qwen3.6 35B A3B	5.3	7.2	44.4%	1		22.50s	6,193	39,116

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	4.7	3.1	33.3%	1		4.92s	145	321
Qwen3.6 35B A3B	4.4	9.9	0.0%	0		8.66s	129	4,569

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	10.0	10.0	100.0%	0		3.11s	93	897
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		7.50s	219	7,404

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	8.2	7.2	88.9%	1		9.13s	442	3,832
Qwen3.6 35B A3B	7.9	7.5	77.8%	1		5.98s	676	9,447

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	10.0	10.0	100.0%	0		13.28s	264	1,031
Qwen3.6 35B A3B	0.0	0.0	0.0%	0		0ms	0	0

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	3.0	10.0	0.0%	0		13.95s	30	1,821
Qwen3.6 35B A3B	3.0	10.0	0.0%	0		32.90s	762	10,326

Comparație rapidă

Schimbă perechea de comparație

GPT-5.4mediumvsQwen3.7 Maxnone Gemini 3.5 FlashminimalvsGPT-5.4medium Gemini 3 Flash PreviewnonevsQwen3.6 35B A3Bmedium Gemini 3.5 FlashminimalvsQwen3.6 35B A3Bmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 35B A3Bmedium GPT-5.2 ChatnonevsQwen3.6 35B A3Bmedium Gemini 3 Flash PreviewnonevsGPT-5.4medium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium Gemini 3.1 Flash Lite PreviewnonevsQwen3.6 35B A3Bmedium Gemini 3.1 Flash LitelowvsQwen3.6 35B A3Bmedium GPT-5.3 ChatnonevsQwen3.6 35B A3Bmedium DeepSeek V4 FlashhighDisponibil gratuitvsQwen3.6 35B A3Bmedium