AI BENCHY Compare

Inception: Mercury 2 vs Xiaomi: MiMo-V2.5-Pro

Rezumat

Comparație benchmark Mercury 2 vs MiMo-V2.5-Pro: MiMo-V2.5-Pro conduce la scorul mediu cu 5.5 vs 4.6. Mercury 2 are costul de benchmark mai mic, $0.011 vs $0.017. Mercury 2 este mai rapid cu 653ms vs 1.78s, cu rate de reușită de 23.8% vs 39.7%.

Model recomandat: Mercury 2 - Oferă cel mai bun compromis per total: scor competitiv (4.6), cost mai mic decât MiMo-V2.5-Pro și timp de răspuns echilibrat.

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-06-18

Metrică	Mercury 2 Mercury 2 none Lansare: 2026-02-24	MiMo-V2.5-Pro MiMo-V2.5-Pro none Lansare: 2026-04-22

Metrică	Mercury 2 Mercury 2 none Lansare: 2026-02-24	MiMo-V2.5-Pro MiMo-V2.5-Pro none Lansare: 2026-04-22
Scor	4.6	5.5
Rang	#151	#119
Fiabilitate	10.0	10.0
Consistență	9.2	8.6
Teste corecte
Rată de trecere pe încercare	23.8%	39.7%
Teste instabile	2	4
Rulări totale	63	63
Cost per rezultat	0.259	0.648
Cost total	$0.011	$0.017
Preț de intrare	$0.250 / 1M	$0.435 / 1M
Preț de ieșire	$0.750 / 1M	$0.870 / 1M
Total tokenuri de intrare	28,113	30,724
Tokenuri de ieșire	4,439	3,043
Tokenuri de raționament	0	0
Timp de răspuns (mediu)	653ms	1.78s
Timp de răspuns (maxim)	1.43s	8.32s
Timp de răspuns (total)	13.72s	37.42s

Prezentare generare

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#151 Mercury 2

none

Cost: $0.002
Timp: 1.8s
Tokenuri: 1,514 tok

#119 MiMo-V2.5-Pro

none

Cost: $0.004
Timp: 46.4s
Tokenuri: 4,025 tok

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	3.0	10.0	0.0%	0		483ms	631	286	0
MiMo-V2.5-Pro	3.3	8.1	8.3%	1		2.67s	645	994	0

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	3.4	9.6	0.0%	0		1.03s	7,229	3,088	0
MiMo-V2.5-Pro	4.3	7.8	22.2%	1		1.41s	6,559	485	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	3.0	10.0	0.0%	0		606ms	4,821	131	0
MiMo-V2.5-Pro	3.0	10.0	0.0%	0		3.54s	4,695	596	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	7.3	5.9	83.3%	1		667ms	6,362	180	0
MiMo-V2.5-Pro	10.0	10.0	100.0%	0		1.32s	7,758	249	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	5.3	7.2	44.4%	1		534ms	784	46	0
MiMo-V2.5-Pro	5.3	10.0	33.3%	0		877ms	753	27	0

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	4.8	10.0	0.0%	0		628ms	495	159	0
MiMo-V2.5-Pro	4.0	10.0	0.0%	0		2.58s	498	87	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	6.5	10.0	50.0%	0		551ms	691	82	0
MiMo-V2.5-Pro	6.4	10.0	50.0%	0		1.03s	684	66	0

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	3.1	10.0	0.0%	0		535ms	694	251	0
MiMo-V2.5-Pro	6.7	4.7	77.8%	2		1.30s	678	267	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	10.0	10.0	100.0%	0		1.27s	6,193	197	0
MiMo-V2.5-Pro	10.0	10.0	100.0%	0		3.30s	8,238	258	0

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Mercury 2	3.0	10.0	0.0%	0		548ms	213	19	0
MiMo-V2.5-Pro	3.0	10.0	0.0%	0		1.89s	216	14	0

Comparație rapidă

Schimbă perechea de comparație

Mercury 2nonevsQwen3 Coder Nextmedium Mercury 2nonevsMiniMax M2.5medium CobuddymediumvsMercury 2none MiniMax M2.7mediumvsMiMo-V2.5-Pronone Mercury 2nonevsGLM 4.7 Flashmedium North Mini CodemediumDisponibil gratuitvsMiMo-V2.5-Pronone Mistral Small 4mediumvsMiMo-V2.5-Pronone Mercury 2nonevsMistral Small 4medium Mercury 2nonevsMiniMax M2.7medium CobuddymediumvsMiMo-V2.5-Pronone Gemini 3.1 Flash LiteminimalvsMiMo-V2.5-Pronone MiniMax M2.5mediumvsMiMo-V2.5-Pronone