AI BENCHY Compare

Mistral: Mistral Small 4 vs MoonshotAI: Kimi K2.5

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-03-17

Metrik	Mistral Small 4 Mistral Small 4 none Veröffentlichung: 2026-03-16	Kimi K2.5 Kimi K2.5 none Veröffentlichung: 2026-01-27

Metrik	Mistral Small 4 Mistral Small 4 none Veröffentlichung: 2026-03-16	Kimi K2.5 Kimi K2.5 none Veröffentlichung: 2026-01-27
Rang	#61	#59
Punktzahl	5.3	5.3
Konsistenz	9.5	8.7
Kosten pro Ergebnis	0.108	0.297
Gesamtkosten	$0.006	$0.015
Korrekte Tests
Erfolgsquote pro Versuch	33.3%	37.3%
Instabile Tests	1	3
Gesamtläufe	51	51
Ausgabe-Token	1,624	2,010
Denk-Token	0	0
Antwortzeit (Durchschnitt)	629ms	10.83s
Antwortzeit (Maximum)	1.72s	42.13s
Antwortzeit (Gesamt)	10.70s	108.27s

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Mistral Small 4	3.4	7.9	16.7%	1		395ms	182	0
Kimi K2.5	3.6	8.4	8.3%	1		6.24s	373	0

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Mistral Small 4	3.0	10.0	0.0%	0		1.72s	496	0
Kimi K2.5	2.8	2.1	33.3%	1		19.16s	748	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Mistral Small 4	10.0	10.0	100.0%	0		822ms	261	0
Kimi K2.5	7.3	5.8	83.3%	1		42.13s	187	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Mistral Small 4	5.3	10.0	33.3%	0		367ms	28	0
Kimi K2.5	5.3	10.0	33.3%	0		4.38s	29	0

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Mistral Small 4	4.0	10.0	0.0%	0		729ms	205	0
Kimi K2.5	10.0	10.0	100.0%	0		4.00s	76	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Mistral Small 4	6.5	10.0	50.0%	0		380ms	69	0
Kimi K2.5	6.5	10.0	50.0%	0		2.67s	60	0

Puzzle Solving	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Mistral Small 4	3.1	9.9	0.0%	0		589ms	170	0
Kimi K2.5	3.1	10.0	0.0%	0		4.73s	317	0

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Mistral Small 4	10.0	10.0	100.0%	0		1.40s	213	0
Kimi K2.5	10.0	10.0	100.0%	0		13.99s	220	0

Schnellvergleich

Vergleichspaar wechseln

Mistral Small 4mediumvsKimi K2.5none Mistral Small 4nonevsQwen3 Coder Nextmedium Kimi K2.5nonevsQwen3 Coder Nextmedium MiniMax M2.5mediumKostenlos verfügbarvsKimi K2.5none Mistral Small 4nonevsGLM 4.7 Flashmedium MiniMax M2.5mediumKostenlos verfügbarvsMistral Small 4none Kimi K2.5nonevsGLM 4.7 Flashmedium Kimi K2.5nonevsgpt-oss-120bmediumKostenlos verfügbar Mistral Small 4nonevsgpt-oss-120bmediumKostenlos verfügbar Mistral Small 4nonevsQwen3.5-9Bmedium Kimi K2.5nonevsQwen3.5-9Bmedium Kimi K2.5nonevsGrok 4.20 Multi-Agent Betamedium