AI BENCHY Compare

OpenAI: GPT-5.2 vs Qwen: Qwen3.7 Plus

Rezumat

Comparație benchmark GPT-5.2 vs Qwen3.7 Plus: GPT-5.2 conduce la scorul mediu cu 8.4 vs 8.2. Qwen3.7 Plus are costul de benchmark mai mic, $0.177 vs $0.548. GPT-5.2 este mai rapid cu 16.88s vs 38.95s, cu rate de reușită de 71.4% vs 77.8%.

Model recomandat: Qwen3.7 Plus - Scorul rămâne aproape de cel mai bun scor de aici (8.2 vs 8.4) și costă de aproximativ 3.1x mai puțin decât GPT-5.2.

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-06-18

Metrică	GPT-5.2 GPT-5.2 medium Lansare: 2025-12-11	Qwen3.7 Plus Qwen3.7 Plus medium Lansare: 2026-06-03

Metrică	GPT-5.2 GPT-5.2 medium Lansare: 2025-12-11	Qwen3.7 Plus Qwen3.7 Plus medium Lansare: 2026-06-03
Scor	8.4	8.2
Rang	#22	#25
Fiabilitate	10.0	10.0
Consistență	8.4	9.1
Teste corecte
Rată de trecere pe încercare	71.4%	77.8%
Teste instabile	4	2
Rulări totale	63	63
Cost per rezultat	4.209	1.474
Cost total	$0.548	$0.177
Preț de intrare	$1.750 / 1M	$0.320 / 1M
Preț de ieșire	$14.000 / 1M	$1.280 / 1M
Total tokenuri de intrare	33,967	40,939
Tokenuri de ieșire	2,901	2,125
Tokenuri de raționament	31,932	125,754
Timp de răspuns (mediu)	16.88s	38.95s
Timp de răspuns (maxim)	77.80s	178.04s
Timp de răspuns (total)	236.34s	817.85s

Prezentare generare

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#22 GPT-5.2

medium

Cost: $0.047
Timp: 49.2s
Tokenuri: 3,396 tok

#25 Qwen3.7 Plus

medium

Cost: $0.018
Timp: 193.2s
Tokenuri: 10,821 tok

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2	6.5	8.0	58.3%	1		7.81s	606	567	2,002
Qwen3.7 Plus	10.0	10.0	100.0%	0		8.58s	672	195	5,065

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2	10.0	10.0	100.0%	0		22.73s	7,302	511	11,912
Qwen3.7 Plus	6.1	6.6	55.6%	1		108.60s	6,472	414	43,576

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2	10.0	10.0	100.0%	0		14.06s	11,019	291	1,757
Qwen3.7 Plus	10.0	10.0	100.0%	0		65.24s	14,934	366	10,132

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2	10.0	10.0	100.0%	0		3.15s	7,140	234	420
Qwen3.7 Plus	10.0	10.0	100.0%	0		21.75s	7,782	270	6,713

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2	5.9	7.2	55.6%	1		77.80s	473	42	10,342
Qwen3.7 Plus	3.6	7.2	22.2%	1		45.35s	771	57	27,073

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2	3.7	9.7	0.0%	0		4.32s	477	162	269
Qwen3.7 Plus	10.0	10.0	100.0%	0		25.48s	516	123	3,998

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2	9.9	10.0	100.0%	0		3.12s	660	94	614
Qwen3.7 Plus	10.0	10.0	100.0%	0		16.13s	699	102	5,013

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2	7.5	7.3	77.8%	1		5.80s	642	735	924
Qwen3.7 Plus	10.0	10.0	100.0%	0		16.38s	696	280	7,312

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2	4.7	1.6	66.7%	1		10.30s	5,453	239	469
Qwen3.7 Plus	10.0	10.0	100.0%	0		15.02s	8,193	292	1,831

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2	3.0	10.0	0.0%	0		28.18s	195	26	3,223
Qwen3.7 Plus	3.0	10.0	0.0%	0		91.07s	204	26	15,041

Comparație rapidă

Schimbă perechea de comparație

DeepSeek V4 FlashhighvsQwen3.7 Plusmedium DeepSeek V4 FlashhighvsGPT-5.2medium GPT-5.2 ChatnonevsQwen3.7 Plusmedium Qwen3.7 PlusmediumvsStep 3.7 Flashlow DeepSeek V4 ProhighvsQwen3.7 Plusmedium GPT-5.3 ChatnonevsQwen3.7 Plusmedium GPT-5.2mediumvsStep 3.7 Flashlow DeepSeek V4 ProhighvsGPT-5.2medium Gemini 3 Flash PreviewlowvsQwen3.7 Plusmedium Gemini 3.5 FlashlowvsGPT-5.2medium Claude Sonnet 4.6nonevsQwen3.7 Plusmedium Claude Opus 4.8nonevsQwen3.7 Plusmedium