AI BENCHY Compare

OpenAI: GPT-5.4 Mini vs Qwen: Qwen3.5-35B-A3B

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-05-01

Metrică	GPT-5.4 Mini GPT-5.4 Mini medium Lansare: 2026-03-17	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium Lansare: 2026-02-24

Metrică	GPT-5.4 Mini GPT-5.4 Mini medium Lansare: 2026-03-17	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium Lansare: 2026-02-24
Scor	7.3	7.4
Rang	#58	#57
Fiabilitate	N/D	N/D
Consistență	7.4	6.7
Teste corecte
Rată de trecere pe încercare	70.4%	79.6%
Teste instabile	6	7
Rulări totale	54	54
Cost per rezultat	3.313	3.976
Cost total	$0.299	$0.398
Preț de intrare	$0.750 / 1M	$0.163 / 1M
Preț de ieșire	$4.500 / 1M	$1.300 / 1M
Tokenuri de ieșire	2,131	10,137
Tokenuri de raționament	59,567	208,761
Timp de răspuns (mediu)	15.22s	44.51s
Timp de răspuns (maxim)	102.91s	106.00s
Timp de răspuns (total)	273.90s	801.21s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4 Mini	8.6	7.9	91.7%	1		4.05s	296	2,876
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		21.13s	798	42,652

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4 Mini	10.0	10.0	100.0%	0		7.76s	423	1,548
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		79.09s	4,273	33,078

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4 Mini	10.0	10.0	100.0%	0		17.81s	317	4,317
Qwen3.5-35B-A3B	4.7	1.6	66.7%	1		75.34s	775	12,485

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4 Mini	10.0	10.0	100.0%	0		2.43s	234	650
Qwen3.5-35B-A3B	7.3	5.9	83.3%	1		59.33s	235	19,493

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4 Mini	4.1	4.4	44.5%	2		65.31s	60	43,286
Qwen3.5-35B-A3B	4.1	4.4	44.5%	2		88.34s	41	46,368

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4 Mini	4.5	10.0	0.0%	0		3.72s	150	510
Qwen3.5-35B-A3B	2.8	1.6	33.3%	1		30.30s	20	3,753

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4 Mini	7.4	6.7	66.7%	1		2.50s	129	1,337
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		24.45s	97	17,361

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4 Mini	6.8	7.9	55.6%	1		4.33s	271	2,449
Qwen3.5-35B-A3B	6.4	4.4	77.8%	2		31.58s	3,589	32,206

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4 Mini	4.7	1.6	66.7%	1		9.62s	251	2,594
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		4.65s	309	1,365

Comparație rapidă

Schimbă perechea de comparație

Claude Sonnet 4.6nonevsQwen3.5-35B-A3Bmedium Claude Sonnet 4.6nonevsGPT-5.4 Minimedium GPT-5.4 MinimediumvsQwen3.6 Max Previewnone DeepSeek V4 ProhighvsGPT-5.4 Minimedium Gemma 4 31BnoneDisponibil gratuitvsGPT-5.4 Minimedium DeepSeek V4 FlashhighvsQwen3.5-35B-A3Bmedium GPT-5.3 ChatnonevsQwen3.5-35B-A3Bmedium DeepSeek V4 ProhighvsQwen3.5-35B-A3Bmedium GPT-5.4 MinimediumvsQwen3.5 Plus 2026-02-15none Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-35B-A3Bmedium GPT-5.2 ChatnonevsQwen3.5-35B-A3Bmedium Gemma 4 31BnoneDisponibil gratuitvsQwen3.5-35B-A3Bmedium