AI BENCHY Compare

Inception: Mercury 2 vs Elephant Alpha

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-06-03

Metrică	Mercury 2 Mercury 2 none Lansare: 2026-02-24	Elephant Alpha Elephant Alpha medium Lansare: 2026-04-14

Metrică	Mercury 2 Mercury 2 none Lansare: 2026-02-24	Elephant Alpha Elephant Alpha medium Lansare: 2026-04-14
Scor	4.6	5.3
Rang	#153	#134
Fiabilitate	10.0	N/D
Consistență	9.1	9.7
Teste corecte
Rată de trecere pe încercare	25.0%	31.7%
Teste instabile	2	1
Rulări totale	60	60
Cost per rezultat	0.216	0.000
Cost total	$0.009	$0.000
Preț de intrare	$0.250 / 1M	$0.000 / 1M
Preț de ieșire	$0.750 / 1M	$0.000 / 1M
Total tokenuri de intrare	25,515	33,744
Tokenuri de ieșire	3,001	2,596
Tokenuri de raționament	0	0
Timp de răspuns (mediu)	614ms	1.27s
Timp de răspuns (maxim)	1.27s	3.70s
Timp de răspuns (total)	12.28s	22.82s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	3.0	10.0	0.0%	0		483ms	631	286	0
Elephant Alpha	6.6	10.0	50.0%	0		1.19s	726	815	0

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	3.5	9.4	0.0%	0		831ms	4,631	1,650	0
Elephant Alpha	4.0	6.7	16.7%	1		1.30s	813	365	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	3.0	10.0	0.0%	0		606ms	4,821	131	0
Elephant Alpha	3.0	10.0	0.0%	0		3.70s	14,046	562	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	7.3	5.9	83.3%	1		667ms	6,362	180	0
Elephant Alpha	6.5	10.0	50.0%	0		979ms	8,004	246	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	5.3	7.2	44.4%	1		534ms	784	46	0
Elephant Alpha	3.0	10.0	0.0%	0		925ms	810	24	0

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	4.8	10.0	0.0%	0		628ms	495	159	0
Elephant Alpha	4.3	10.0	0.0%	0		920ms	540	105	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	6.5	10.0	50.0%	0		551ms	691	82	0
Elephant Alpha	9.8	10.0	100.0%	0		987ms	732	82	0

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	3.1	10.0	0.0%	0		535ms	694	251	0
Elephant Alpha	5.3	10.0	33.3%	0		868ms	729	166	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	10.0	10.0	100.0%	0		1.27s	6,193	197	0
Elephant Alpha	3.0	10.0	0.0%	0		2.83s	7,344	231	0

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	3.0	10.0	0.0%	0		548ms	213	19	0
Elephant Alpha	3.0	10.0	0.0%	0		0ms	0	0	0

Comparație rapidă

Schimbă perechea de comparație

Kimi K2.5nonevsElephant Alphamedium Elephant AlphamediumvsGLM 5 Turbonone Ling-2.6-flashnonevsElephant Alphamedium Elephant AlphamediumvsQwen3.5-122B-A10Bnone DeepSeek V3.2nonevsElephant Alphamedium Mercury 2nonevsQwen3 Coder Nextmedium Mercury 2nonevsGLM 4.7 Flashmedium Elephant AlphamediumvsGrok 4.20none gpt-oss-120bnoneDisponibil gratuitvsElephant Alphamedium DeepSeek V4 FlashnonevsElephant Alphamedium Elephant AlphamediumvsQwen3 Coder Nextnone Elephant AlphamediumvsQwen3.6 Flashnone