AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Xiaomi: MiMo-V2.5

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-05-22

Metrică	Claude Opus 4.6 Claude Opus 4.6 medium Lansare: 2026-02-05	MiMo-V2.5 MiMo-V2.5 medium Lansare: 2026-04-22

Metrică	Claude Opus 4.6 Claude Opus 4.6 medium Lansare: 2026-02-05	MiMo-V2.5 MiMo-V2.5 medium Lansare: 2026-04-22
Scor	7.2	7.4
Rang	#63	#53
Fiabilitate	10.0	10.0
Consistență	9.1	8.4
Teste corecte
Rată de trecere pe încercare	63.3%	70.0%
Teste instabile	2	4
Rulări totale	60	60
Cost per rezultat	15.798	2.877
Cost total	$1.896	$0.346
Preț de intrare	$5.000 / 1M	$0.400 / 1M
Preț de ieșire	$25.000 / 1M	$2.000 / 1M
Tokenuri de ieșire	42,253	2,891
Tokenuri de raționament	23,561	161,845
Timp de răspuns (mediu)	25.44s	20.40s
Timp de răspuns (maxim)	83.40s	97.49s
Timp de răspuns (total)	330.70s	407.98s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	986	1,071
MiMo-V2.5	10.0	10.0	100.0%	0		4.14s	281	1,739

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	7.2	9.8	50.0%	0		29.37s	7,865	3,675
MiMo-V2.5	6.9	6.2	66.7%	1		64.48s	536	44,967

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
MiMo-V2.5	10.0	10.0	100.0%	0		16.86s	363	7,609

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	691	757
MiMo-V2.5	2.7	5.7	16.7%	1		6.33s	306	5,714

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	14,642	8,687
MiMo-V2.5	5.3	10.0	33.3%	0		34.53s	507	49,478

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
MiMo-V2.5	5.4	2.5	66.7%	1		5.37s	121	418

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
MiMo-V2.5	9.9	10.0	100.0%	0		1.80s	88	801

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	7.7	10.0	66.7%	0		4.60s	531	637
MiMo-V2.5	8.2	7.2	88.9%	1		20.60s	364	33,211

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
MiMo-V2.5	10.0	10.0	100.0%	0		7.29s	303	2,424

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.6	3.0	10.0	0.0%	0		63.24s	8,045	2,452
MiMo-V2.5	3.0	10.0	0.0%	0		51.29s	22	15,484

Comparație rapidă

Schimbă perechea de comparație

GPT-5.3 ChatnonevsMiMo-V2.5medium DeepSeek V4 FlashhighDisponibil gratuitvsMiMo-V2.5medium Gemini 3.1 Flash LitelowvsMiMo-V2.5medium Claude Opus 4.6mediumvsRing-2.6-1Tnone Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2.5medium Claude Opus 4.6mediumvsQwen3.6 Max Previewnone Ring-2.6-1TnonevsMiMo-V2.5medium Claude Opus 4.6mediumvsDeepSeek V4 FlashhighDisponibil gratuit Claude Opus 4.6mediumvsGPT-5.3 Chatnone GPT-5.2 ChatnonevsMiMo-V2.5medium Claude Opus 4.6mediumvsGemini 3.1 Flash Litelow Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5medium