AI BENCHY Compare

HY3 Preview vs Grok 4.20 Beta

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-04-26

Metrică	HY3 Preview HY3 Preview high Lansare: 2026-04-22 Disponibil gratuit	Grok 4.20 Beta Grok 4.20 Beta medium Lansare: 2026-03-12

Metrică	HY3 Preview HY3 Preview high Lansare: 2026-04-22 Disponibil gratuit	Grok 4.20 Beta Grok 4.20 Beta medium Lansare: 2026-03-12
Scor	8.5	8.0
Rang	#11	#31
Fiabilitate	N/D	N/D
Consistență	8.8	9.1
Teste corecte
Rată de trecere pe încercare	81.5%	74.1%
Teste instabile	3	2
Rulări totale	50	52
Cost per rezultat	0.000	5.269
Cost total	$0.000	$0.633
Preț de intrare	$0.000 / 1M	$0.000 / 1M
Preț de ieșire	$0.000 / 1M	$0.000 / 1M
Tokenuri de ieșire	238,920	1,568
Tokenuri de raționament	0	91,909
Timp de răspuns (mediu)	55.19s	9.81s
Timp de răspuns (maxim)	149.94s	31.36s
Timp de răspuns (total)	938.23s	176.62s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
HY3 Preview	10.0	10.0	100.0%	0		32.69s	26,550	0
Grok 4.20 Beta	8.7	7.9	91.7%	1		3.16s	268	7,583

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
HY3 Preview	10.0	10.0	100.0%	0		99.76s	38,167	0
Grok 4.20 Beta	10.0	10.0	100.0%	0		31.36s	81	3,987

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
HY3 Preview	10.0	10.0	100.0%	0		113.09s	31,319	0
Grok 4.20 Beta	10.0	10.0	100.0%	0		20.93s	227	12,212

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
HY3 Preview	6.5	10.0	50.0%	0		12.11s	4,323	0
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.01s	180	5,281

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
HY3 Preview	5.3	7.2	44.4%	1		109.04s	87,559	0
Grok 4.20 Beta	5.3	10.0	33.3%	0		21.33s	251	40,255

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
HY3 Preview	10.0	10.0	100.0%	0		24.31s	5,490	0
Grok 4.20 Beta	10.0	10.0	100.0%	0		5.78s	72	3,440

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
HY3 Preview	8.5	6.8	83.3%	1		34.02s	13,331	0
Grok 4.20 Beta	8.3	10.0	50.0%	0		4.97s	57	7,107

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
HY3 Preview	9.0	7.9	88.9%	1		28.07s	21,811	0
Grok 4.20 Beta	8.2	7.2	88.9%	1		3.85s	249	6,660

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
HY3 Preview	10.0	10.0	100.0%	0		78.83s	10,370	0
Grok 4.20 Beta	3.0	10.0	0.0%	0		12.39s	183	5,384

Comparație rapidă

Schimbă perechea de comparație

Qwen3.5 Plus 2026-02-15mediumvsHY3 PreviewhighDisponibil gratuit Qwen3.6 Plus PreviewmediumDisponibil gratuitvsHY3 PreviewhighDisponibil gratuit Qwen3.5-27BmediumvsHY3 PreviewhighDisponibil gratuit GPT-5.3-CodexmediumvsHY3 PreviewhighDisponibil gratuit Gemini 3 PRO PreviewmediumvsHY3 PreviewhighDisponibil gratuit Seed-2.0-LitemediumvsHY3 PreviewhighDisponibil gratuit HY3 PreviewhighDisponibil gratuitvsGLM 5medium Gemma 4 31BmediumDisponibil gratuitvsHY3 PreviewhighDisponibil gratuit Gemini 2.5 FlashmediumvsHY3 PreviewhighDisponibil gratuit GPT-5.4mediumvsHY3 PreviewhighDisponibil gratuit Gemini 3.1 Flash Lite PreviewmediumvsHY3 PreviewhighDisponibil gratuit Gemini 3 Flash PreviewlowvsHY3 PreviewhighDisponibil gratuit