AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Mimo V2 Omni

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-06-01

Metrică	Claude Opus 4.8 Claude Opus 4.8 none Lansare: 2026-05-28	Mimo V2 Omni Mimo V2 Omni medium Lansare: 2026-03-18

Metrică	Claude Opus 4.8 Claude Opus 4.8 none Lansare: 2026-05-28	Mimo V2 Omni Mimo V2 Omni medium Lansare: 2026-03-18
Scor	7.3	6.9
Rang	#66	#80
Fiabilitate	10.0	10.0
Consistență	9.2	8.7
Teste corecte
Rată de trecere pe încercare	65.0%	58.3%
Teste instabile	2	3
Rulări totale	60	52
Cost per rezultat	4.324	7.334
Cost total	$0.519	$0.683
Preț de intrare	$5.000 / 1M	$1.722 / 1M
Preț de ieșire	$25.000 / 1M	$1.722 / 1M
Tokenuri de ieșire	8,098	1,952
Tokenuri de raționament	0	357,306
Timp de răspuns (mediu)	3.51s	41.16s
Timp de răspuns (maxim)	17.73s	299.23s
Timp de răspuns (total)	70.19s	823.26s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	1,472	0
Mimo V2 Omni	10.0	10.0	100.0%	0		2.75s	269	1,701

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	6.8	10.0	50.0%	0		3.59s	1,323	0
Mimo V2 Omni	3.4	4.8	16.7%	1		183.89s	292	174,314

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	3,259	0
Mimo V2 Omni	10.0	10.0	100.0%	0		25.87s	380	8,673

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	308	0
Mimo V2 Omni	10.0	10.0	100.0%	0		3.04s	155	591

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	5.3	7.2	44.4%	1		1.66s	61	0
Mimo V2 Omni	3.0	10.0	0.0%	0		47.89s	155	68,398

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	230	0
Mimo V2 Omni	5.4	2.5	66.7%	1		3.61s	136	492

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	95	0
Mimo V2 Omni	8.3	10.0	50.0%	0		4.99s	49	515

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	783	0
Mimo V2 Omni	5.9	7.2	55.6%	1		2.38s	210	860

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	355	0
Mimo V2 Omni	10.0	10.0	100.0%	0		13.98s	303	3,461

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	212	0
Mimo V2 Omni	3.0	10.0	0.0%	0		234.19s	3	98,301

Comparație rapidă

Schimbă perechea de comparație

Claude Opus 4.8nonevsQwen3.5-35B-A3Bmedium Claude Opus 4.8nonevsMiniMax M3medium Claude Opus 4.8nonevsRing-2.6-1Tmedium Claude Opus 4.8nonevsGPT-5.4 Minimedium Claude Opus 4.8nonevsGPT-5.2medium Claude Opus 4.8nonevsGLM 5V Turbomedium Claude Opus 4.8nonevsStep 3.5 Flashmedium Claude Opus 4.8nonevsGPT-5.4 Nanomedium Claude Sonnet 4.6nonevsMimo V2 Omnimedium Claude Opus 4.8nonevsKimi K2.6mediumDisponibil gratuit Claude Opus 4.8nonevsStep 3.7 Flashlow Claude Opus 4.8nonevsGPT-5 Minimedium