AI BENCHY Compare

OpenAI: GPT-5.2 vs Qwen: Qwen3.6 Max Preview

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-04-27

Metrică	GPT-5.2 GPT-5.2 medium Lansare: 2025-12-11	Qwen3.6 Max Preview Qwen3.6 Max Preview none Lansare: 2026-04-20

Metrică	GPT-5.2 GPT-5.2 medium Lansare: 2025-12-11	Qwen3.6 Max Preview Qwen3.6 Max Preview none Lansare: 2026-04-20
Scor	7.5	7.3
Rang	#52	#56
Fiabilitate	N/D	10.0
Consistență	8.1	8.7
Teste corecte
Rată de trecere pe încercare	72.2%	66.7%
Teste instabile	4	3
Rulări totale	54	54
Cost per rezultat	3.193	0.827
Cost total	$0.352	$0.083
Preț de intrare	$1.750 / 1M	$1.300 / 1M
Preț de ieșire	$14.000 / 1M	$7.800 / 1M
Tokenuri de ieșire	2,705	4,732
Tokenuri de raționament	18,977	0
Timp de răspuns (mediu)	14.04s	3.38s
Timp de răspuns (maxim)	77.80s	20.51s
Timp de răspuns (total)	154.41s	60.83s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2	6.5	8.0	58.3%	1		7.81s	567	2,002
Qwen3.6 Max Preview	5.2	7.9	41.7%	1		2.63s	513	0

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2	10.0	10.0	100.0%	0		15.12s	467	2,166
Qwen3.6 Max Preview	5.0	2.0	66.7%	1		3.45s	426	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2	10.0	10.0	100.0%	0		14.06s	291	1,757
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		20.51s	2,842	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2	10.0	10.0	100.0%	0		3.15s	234	420
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.87s	243	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2	5.9	7.2	55.6%	1		77.80s	42	10,342
Qwen3.6 Max Preview	7.7	10.0	66.7%	0		1.22s	18	0

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2	3.7	9.7	0.0%	0		4.32s	162	269
Qwen3.6 Max Preview	4.3	10.0	0.0%	0		1.62s	76	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2	9.9	10.0	100.0%	0		3.12s	94	614
Qwen3.6 Max Preview	8.4	6.9	83.3%	1		1.45s	69	0

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2	7.7	7.3	77.8%	1		5.47s	609	938
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.38s	323	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.2	4.7	1.6	66.7%	1		10.30s	239	469
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		5.27s	222	0

Comparație rapidă

Schimbă perechea de comparație

Claude Sonnet 4.6nonevsGPT-5.2medium GPT-5.4 MinimediumvsQwen3.6 Max Previewnone Qwen3.6 Max PreviewnonevsMiMo-V2-Flashmedium Seed-2.0-MinimediumvsQwen3.6 Max Previewnone GPT-5.4 NanomediumvsQwen3.6 Max Previewnone Claude Opus 4.6mediumvsQwen3.6 Max Previewnone GPT-5 MinimediumvsQwen3.6 Max Previewnone Kimi K2.5mediumvsQwen3.6 Max Previewnone Qwen3.6 Max PreviewnonevsMiMo-V2-Omnimedium DeepSeek V4 FlashhighvsGPT-5.2medium Qwen3.6 Max PreviewnonevsGrok 4.20medium Kimi K2.6mediumvsQwen3.6 Max Previewnone