AI BENCHY Compare

OpenAI: GPT-5.4 Mini vs Qwen: Qwen3.5-35B-A3B

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-17

Metrică	GPT-5.4 Mini GPT-5.4 Mini medium Lansare: 2026-03-17	Qwen3.5-35B-A3B Qwen3.5-35B-A3B none Lansare: 2026-02-24

Metrică	GPT-5.4 Mini GPT-5.4 Mini medium Lansare: 2026-03-17	Qwen3.5-35B-A3B Qwen3.5-35B-A3B none Lansare: 2026-02-24
Rang	#34	#49
Scor	7.1	5.9
Consistență	7.2	8.6
Cost per rezultat	3.610	0.237
Cost total	$0.289	$0.015
Teste corecte
Rată de trecere pe încercare	68.6%	47.1%
Teste instabile	6	3
Rulări totale	51	51
Tokenuri de ieșire	1,708	3,761
Tokenuri de raționament	58,019	0
Timp de răspuns (mediu)	15.66s	3.89s
Timp de răspuns (maxim)	102.91s	47.43s
Timp de răspuns (total)	266.14s	66.07s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4 Mini	8.6	7.9	91.7%	1		4.05s	296	2,876
Qwen3.5-35B-A3B	3.4	7.9	16.7%	1		1.43s	574	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4 Mini	10.0	10.0	100.0%	0		17.81s	317	4,317
Qwen3.5-35B-A3B	3.0	10.0	0.0%	0		47.43s	1,833	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4 Mini	10.0	10.0	100.0%	0		2.43s	234	650
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		1.16s	243	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4 Mini	4.1	4.4	44.5%	2		65.31s	60	43,286
Qwen3.5-35B-A3B	7.7	10.0	66.7%	0		485ms	15	0

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4 Mini	4.5	10.0	0.0%	0		3.72s	150	510
Qwen3.5-35B-A3B	6.5	3.4	66.7%	1		1.19s	114	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4 Mini	7.4	6.5	66.7%	1		2.50s	129	1,337
Qwen3.5-35B-A3B	6.3	10.0	50.0%	0		809ms	63	0

Puzzle Solving	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4 Mini	6.8	7.9	55.6%	1		4.33s	271	2,449
Qwen3.5-35B-A3B	3.9	7.4	22.2%	1		1.34s	655	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4 Mini	4.7	1.6	66.7%	1		9.62s	251	2,594
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		2.30s	264	0

Comparație rapidă

Schimbă perechea de comparație

MiniMax M2.5mediumDisponibil gratuitvsQwen3.5-35B-A3Bnone gpt-oss-120bmediumDisponibil gratuitvsQwen3.5-35B-A3Bnone Claude Sonnet 4.6nonevsGPT-5.4 Minimedium Mistral Small 4mediumvsQwen3.5-35B-A3Bnone GPT-5.4 MinimediumvsQwen3.5 Plus 2026-02-15none Qwen3.5-35B-A3BnonevsGrok 4.20 Multi-Agent Betamedium GPT-5 NanomediumvsQwen3.5-35B-A3Bnone GPT-5.4 MinimediumvsGLM 5none Mercury 2mediumvsQwen3.5-35B-A3Bnone Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4 Minimedium DeepSeek V3.2nonevsGPT-5.4 Minimedium Gemini 3 Flash PreviewnonevsGPT-5.4 Minimedium