AI BENCHY Compare

OpenAI: GPT-5.4 vs Qwen: Qwen3.7 Max

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-06-04

Metrică	GPT-5.4 GPT-5.4 medium Lansare: 2026-03-05	Qwen3.7 Max Qwen3.7 Max medium Lansare: 2026-05-22

Metrică	GPT-5.4 GPT-5.4 medium Lansare: 2026-03-05	Qwen3.7 Max Qwen3.7 Max medium Lansare: 2026-05-22
Scor	8.0	9.1
Rang	#21	#5
Fiabilitate	10.0	10.0
Consistență	8.6	9.6
Teste corecte
Rată de trecere pe încercare	76.2%	88.9%
Teste instabile	4	1
Rulări totale	63	63
Cost per rezultat	8.640	5.517
Cost total	$1.210	$0.523
Preț de intrare	$2.500 / 1M	$1.250 / 1M
Preț de ieșire	$15.000 / 1M	$3.750 / 1M
Total tokenuri de intrare	34,108	42,360
Tokenuri de ieșire	2,242	2,129
Tokenuri de raționament	72,707	122,959
Timp de răspuns (mediu)	22.35s	16.02s
Timp de răspuns (maxim)	100.41s	59.98s
Timp de răspuns (total)	469.29s	336.51s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	8.3	10.0	75.0%	0		4.11s	606	240	1,511
Qwen3.7 Max	10.0	10.0	100.0%	0		6.36s	672	222	8,742

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	8.8	7.8	88.9%	1		44.36s	7,305	433	24,216
Qwen3.7 Max	10.0	10.0	100.0%	0		35.31s	7,893	423	34,808

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	10.0	10.0	100.0%	0		20.57s	11,019	301	3,543
Qwen3.7 Max	10.0	10.0	100.0%	0		19.60s	14,934	366	8,405

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	10.0	10.0	100.0%	0		5.32s	7,140	234	804
Qwen3.7 Max	10.0	10.0	100.0%	0		8.80s	7,782	270	6,254

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	5.3	7.2	44.4%	1		74.27s	619	61	34,748
Qwen3.7 Max	5.9	7.2	55.6%	1		24.94s	771	61	31,793

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	4.7	3.1	33.3%	1		4.92s	477	145	321
Qwen3.7 Max	10.0	10.0	100.0%	0		11.70s	516	135	4,457

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	10.0	10.0	100.0%	0		3.11s	660	93	897
Qwen3.7 Max	10.0	10.0	100.0%	0		7.46s	699	102	5,452

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	8.2	7.2	88.9%	1		9.14s	642	441	3,815
Qwen3.7 Max	10.0	10.0	100.0%	0		8.84s	696	259	8,908

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	10.0	10.0	100.0%	0		13.28s	5,445	264	1,031
Qwen3.7 Max	10.0	10.0	100.0%	0		6.63s	8,193	267	1,220

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	3.0	10.0	0.0%	0		13.95s	195	30	1,821
Qwen3.7 Max	3.0	10.0	0.0%	0		33.37s	204	24	12,920

Comparație rapidă

Schimbă perechea de comparație

GPT-5.5lowvsQwen3.7 Maxmedium Gemini 3.5 FlashnonevsGPT-5.4medium DeepSeek V4 FlashhighvsGPT-5.4medium Gemini 3.5 FlashlowvsQwen3.7 Maxmedium Gemini 3.5 FlashminimalvsGPT-5.4medium GPT-5.4mediumvsQwen3.7 Maxnone Gemini 3 Flash PreviewlowvsGPT-5.4medium Gemini 3.5 FlashhighvsQwen3.7 Maxmedium Gemini 3 Flash PreviewnonevsGPT-5.4medium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium Gemini 3 Flash PreviewlowvsQwen3.7 Maxmedium GPT-5.4mediumvsStep 3.7 Flashlow