AI BENCHY Compare

OpenAI: GPT-5.5 vs Qwen: Qwen3.6 Max Preview

Rezumat

Comparație benchmark GPT-5.5 vs Qwen3.6 Max Preview: Qwen3.6 Max Preview conduce la scorul mediu cu 6.9 vs 6.4. Qwen3.6 Max Preview are costul de benchmark mai mic, $0.075 vs $0.231. GPT-5.5 este mai rapid cu 1.89s vs 3.30s, cu rate de reușită de 54.0% vs 58.7%.

Model recomandat: Qwen3.6 Max Preview - Are cel mai bun scor aici (6.9) și costă de aproximativ 3.1x mai puțin decât GPT-5.5.

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-06-04

Metrică	GPT-5.5 GPT-5.5 none Lansare: 2026-04-24	Qwen3.6 Max Preview Qwen3.6 Max Preview none Lansare: 2026-04-20

Metrică	GPT-5.5 GPT-5.5 none Lansare: 2026-04-24	Qwen3.6 Max Preview Qwen3.6 Max Preview none Lansare: 2026-04-20
Scor	6.4	6.9
Rang	#91	#74
Fiabilitate	10.0	10.0
Consistență	8.8	9.2
Teste corecte
Rată de trecere pe încercare	54.0%	58.7%
Teste instabile	3	2
Rulări totale	63	63
Cost per rezultat	2.302	0.824
Cost total	$0.231	$0.075
Preț de intrare	$5.000 / 1M	$1.040 / 1M
Preț de ieșire	$30.000 / 1M	$6.240 / 1M
Total tokenuri de intrare	34,212	42,509
Tokenuri de ieșire	1,971	4,779
Tokenuri de raționament	0	0
Timp de răspuns (mediu)	1.89s	3.30s
Timp de răspuns (maxim)	5.56s	20.51s
Timp de răspuns (total)	39.64s	69.40s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#91 GPT-5.5

none

Cost: $0.090
Time: 54.3s
Tokens: 3,063 tok

#74 Qwen3.6 Max Preview

none

Cost: $0.025
Time: 83.9s
Tokens: 4,066 tok

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.5	6.9	7.9	66.7%	1		1.31s	606	213	0
Qwen3.6 Max Preview	5.2	7.9	41.7%	1		2.63s	696	513	0

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.5	5.5	10.0	33.3%	0		1.35s	7,305	462	0
Qwen3.6 Max Preview	3.8	7.3	22.2%	1		3.12s	7,913	456	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.5	3.0	10.0	0.0%	0		5.56s	11,019	300	0
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		20.51s	14,949	2,842	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.5	10.0	10.0	100.0%	0		1.18s	7,140	222	0
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.87s	7,794	243	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.5	2.9	7.2	11.1%	1		1.31s	723	52	0
Qwen3.6 Max Preview	7.7	10.0	66.7%	0		1.22s	789	18	0

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.5	10.0	10.0	100.0%	0		3.41s	477	124	0
Qwen3.6 Max Preview	4.3	10.0	0.0%	0		1.62s	522	76	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.5	6.2	5.8	66.7%	1		1.15s	660	81	0
Qwen3.6 Max Preview	9.8	10.0	100.0%	0		1.40s	711	69	0

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.5	7.7	10.0	66.7%	0		1.29s	642	252	0
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.65s	714	321	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.5	10.0	10.0	100.0%	0		3.90s	5,445	247	0
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		5.27s	8,211	222	0

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.5	3.0	10.0	0.0%	0		5.01s	195	18	0
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		1.97s	210	19	0

Comparație rapidă

Schimbă perechea de comparație