AI BENCHY Compare

Qwen: Qwen3.6 Max Preview vs xAI: Grok 4.3

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-05-01

Metrică	Qwen3.6 Max Preview Qwen3.6 Max Preview none Lansare: 2026-04-20	Grok 4.3 Grok 4.3 medium Lansare: 2026-05-01

Metrică	Qwen3.6 Max Preview Qwen3.6 Max Preview none Lansare: 2026-04-20	Grok 4.3 Grok 4.3 medium Lansare: 2026-05-01
Scor	7.5	8.2
Rang	#52	#20
Fiabilitate	10.0	10.0
Consistență	9.1	8.6
Teste corecte
Rată de trecere pe încercare	68.5%	81.5%
Teste instabile	2	3
Rulări totale	54	54
Cost per rezultat	0.752	3.974
Cost total	$0.083	$0.517
Preț de intrare	$1.040 / 1M	$1.250 / 1M
Preț de ieșire	$6.240 / 1M	$2.500 / 1M
Tokenuri de ieșire	4,732	1,223
Tokenuri de raționament	0	187,047
Timp de răspuns (mediu)	3.38s	48.63s
Timp de răspuns (maxim)	20.51s	216.69s
Timp de răspuns (total)	60.83s	875.27s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.6 Max Preview	5.2	7.9	41.7%	1		2.63s	513	0
Grok 4.3	10.0	10.0	100.0%	0		8.83s	88	8,207

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.6 Max Preview	5.0	2.0	66.7%	1		3.45s	426	0
Grok 4.3	10.0	10.0	100.0%	0		45.72s	284	9,659

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		20.51s	2,842	0
Grok 4.3	10.0	10.0	100.0%	0		63.99s	234	15,301

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.87s	243	0
Grok 4.3	10.0	10.0	100.0%	0		18.97s	180	9,546

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.6 Max Preview	7.7	10.0	66.7%	0		1.22s	18	0
Grok 4.3	5.3	7.2	44.4%	1		181.74s	14	111,300

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.6 Max Preview	4.3	10.0	0.0%	0		1.62s	76	0
Grok 4.3	5.4	2.5	66.7%	1		24.70s	70	5,020

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.6 Max Preview	9.8	10.0	100.0%	0		1.45s	69	0
Grok 4.3	9.8	10.0	100.0%	0		18.58s	57	8,713

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.38s	323	0
Grok 4.3	5.9	7.2	55.6%	1		22.53s	128	14,686

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		5.27s	222	0
Grok 4.3	10.0	10.0	100.0%	0		17.66s	168	4,615

Comparație rapidă

Schimbă perechea de comparație

Seed-2.0-MinimediumvsQwen3.6 Max Previewnone GPT-5.4 NanomediumvsQwen3.6 Max Previewnone GPT-5.2mediumvsQwen3.6 Max Previewnone Qwen3.6 Max PreviewnonevsMiMo-V2-Flashmedium Claude Opus 4.6mediumvsQwen3.6 Max Previewnone HY3 PreviewlowDisponibil gratuitvsGrok 4.3medium Gemini 3 Flash PreviewnonevsGrok 4.3medium Gemini 3.1 Flash Lite PreviewlowvsGrok 4.3medium Qwen3.6 Max PreviewnonevsMiMo-V2-Omnimedium Kimi K2.6mediumvsQwen3.6 Max Previewnone Qwen3.6 Max PreviewnonevsMiMo-V2.5medium Qwen3.6 Max PreviewnonevsGLM 5.1medium