AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs Xiaomi: MiMo-V2.5

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-05-19

Metrik	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Veröffentlichung: 2026-02-17	MiMo-V2.5 MiMo-V2.5 medium Veröffentlichung: 2026-04-22

Metrik	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Veröffentlichung: 2026-02-17	MiMo-V2.5 MiMo-V2.5 medium Veröffentlichung: 2026-04-22
Punktzahl	7.8	7.8
Rang	#40	#37
Zuverlässigkeit	10.0	10.0
Konsistenz	9.6	8.6
Korrekte Tests
Erfolgsquote pro Versuch	70.2%	75.9%
Instabile Tests	1	3
Gesamtläufe	57	54
Kosten pro Ergebnis	9.515	2.101
Gesamtkosten	$1.237	$0.253
Eingabepreis	$3.000 / 1M	$0.400 / 1M
Ausgabepreis	$15.000 / 1M	$2.000 / 1M
Ausgabe-Token	45,505	2,821
Denk-Token	28,370	116,207
Antwortzeit (Durchschnitt)	14.25s	14.40s
Antwortzeit (Maximum)	46.35s	86.93s
Antwortzeit (Gesamt)	156.71s	259.20s

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	6.5	10.0	50.0%	0		2.98s	1,046	1,093
MiMo-V2.5	10.0	10.0	100.0%	0		4.14s	281	1,739

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	10.0	10.0	100.0%	0		35.76s	6,894	2,097
MiMo-V2.5	10.0	10.0	100.0%	0		31.48s	488	14,813

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	5,871	3,962
MiMo-V2.5	10.0	10.0	100.0%	0		16.86s	363	7,609

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	10.0	10.0	100.0%	0		13.90s	649	742
MiMo-V2.5	2.7	5.7	16.7%	1		6.33s	306	5,714

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	2.9	7.2	11.1%	1		0ms	25,790	16,919
MiMo-V2.5	5.3	10.0	33.3%	0		34.53s	507	49,478

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	256	433
MiMo-V2.5	5.4	2.5	66.7%	1		5.37s	121	418

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	318	552
MiMo-V2.5	9.9	10.0	100.0%	0		1.80s	88	801

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.80s	589	635
MiMo-V2.5	8.2	7.2	88.9%	1		20.60s	364	33,211

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	655	351
MiMo-V2.5	10.0	10.0	100.0%	0		7.29s	303	2,424

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	3.0	10.0	0.0%	0		30.09s	3,437	1,586
MiMo-V2.5	-	-	-	-	-	-	-	-

Schnellvergleich

Vergleichspaar wechseln

Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5medium Gemini 3 Flash PreviewnonevsMiMo-V2.5medium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2.5medium Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Litelow GPT-5.2 ChatnonevsMiMo-V2.5medium Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Gemini 3.1 Flash LitelowvsMiMo-V2.5medium Claude Sonnet 4.6mediumvsDeepSeek V4 FlashhighKostenlos verfügbar