AI BENCHY Compare

OpenAI: GPT-5.5 vs Qwen: Qwen3.5-35B-A3B

Rezumat

Comparație benchmark GPT-5.5 vs Qwen3.5-35B-A3B: GPT-5.5 conduce la scorul mediu cu 6.3 vs 5.9. Qwen3.5-35B-A3B are costul de benchmark mai mic, $0.012 vs $0.231. GPT-5.5 este mai rapid cu 1.89s vs 3.37s, cu rate de reușită de 54.0% vs 42.9%.

Model recomandat: Qwen3.5-35B-A3B - Scorul rămâne aproape de cel mai bun scor de aici (5.9 vs 6.3) și costă de aproximativ 20.8x mai puțin decât GPT-5.5.

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-07-10

Metrică	GPT-5.5 GPT-5.5 none Lansare: 2026-04-24	Qwen3.5-35B-A3B Qwen3.5-35B-A3B none Lansare: 2026-02-24

Metrică	GPT-5.5 GPT-5.5 none Lansare: 2026-04-24	Qwen3.5-35B-A3B Qwen3.5-35B-A3B none Lansare: 2026-02-24
Scor	6.3	5.9
Rang	#105	#120
Fiabilitate	10.0	10.0
Consistență	8.8	8.9
Teste corecte
Rată de trecere pe încercare	54.0%	42.9%
Teste instabile	3	3
Rulări totale	63	63
Cost per rezultat	2.302	0.230
Cost total	$0.231	$0.012
Preț de intrare	$5.000 / 1M	$0.140 / 1M
Preț de ieșire	$30.000 / 1M	$1.000 / 1M
Total tokenuri de intrare	34,212	48,194
Tokenuri de ieșire	1,971	4,343
Tokenuri de raționament	0	0
Timp de răspuns (mediu)	1.89s	3.37s
Timp de răspuns (maxim)	5.56s	47.43s
Timp de răspuns (total)	39.64s	70.75s

Prezentare generare

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#105 GPT-5.5

none

Cost: $0.090
Timp: 54.3s
Tokenuri: 3,063 tok

#120 Qwen3.5-35B-A3B

none

Cost: $0.005
Timp: 28.4s
Tokenuri: 4,518 tok

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.5	6.9	7.9	66.7%	1		1.31s	606	213	0
Qwen3.5-35B-A3B	3.4	7.9	16.7%	1		1.43s	696	574	0

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.5	5.5	10.0	33.3%	0		1.35s	7,305	462	0
Qwen3.5-35B-A3B	5.5	10.0	33.3%	0		1.39s	7,808	571	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.5	3.0	10.0	0.0%	0		5.56s	11,019	300	0
Qwen3.5-35B-A3B	3.0	10.0	0.0%	0		47.43s	20,739	1,833	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.5	10.0	10.0	100.0%	0		1.18s	7,140	222	0
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		1.16s	7,794	243	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.5	2.9	7.2	11.1%	1		1.31s	723	52	0
Qwen3.5-35B-A3B	7.7	10.0	66.7%	0		485ms	789	15	0

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.5	10.0	10.0	100.0%	0		3.41s	477	124	0
Qwen3.5-35B-A3B	6.5	3.4	66.7%	1		1.19s	522	114	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.5	6.2	5.8	66.7%	1		1.15s	660	81	0
Qwen3.5-35B-A3B	6.3	10.0	50.0%	0		809ms	711	63	0

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.5	7.7	10.0	66.7%	0		1.29s	642	252	0
Qwen3.5-35B-A3B	3.7	7.4	22.2%	1		1.35s	714	655	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.5	10.0	10.0	100.0%	0		3.90s	5,445	247	0
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		2.30s	8,211	264	0

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.5	3.0	10.0	0.0%	0		5.01s	195	18	0
Qwen3.5-35B-A3B	3.0	10.0	0.0%	0		493ms	210	11	0

Comparație rapidă

Schimbă perechea de comparație

GPT-5.5nonevsQwen3.5-35B-A3Bmedium Gemma 4 31BmediumDisponibil gratuitvsGPT-5.5none Nemotron 3 SupermediumDisponibil gratuitvsGPT-5.5none North Mini CodemediumDisponibil gratuitvsQwen3.5-35B-A3Bnone Gemini 3.1 Flash LiteminimalvsGPT-5.5none Gemini 3.1 Flash LitelowvsGPT-5.5none Gemini 3.1 Flash LiteminimalvsQwen3.5-35B-A3Bnone Gemini 3.1 Flash Lite PreviewlowvsGPT-5.5none GPT-5.6 LunalowvsQwen3.5-35B-A3Bnone GPT-5.5nonevsQwen3.6 27Bmedium GPT-5.5nonevsStep 3.5 Flashmedium Gemma 4 31BmediumDisponibil gratuitvsQwen3.5-35B-A3Bnone