AI BENCHY Compare

MoonshotAI: Kimi K2.6 vs xAI: Grok 4.20

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-05-10

Metrik	Kimi K2.6 Kimi K2.6 none Veröffentlichung: 2026-04-20	Grok 4.20 Grok 4.20 none Veröffentlichung: 2026-03-31

Metrik	Kimi K2.6 Kimi K2.6 none Veröffentlichung: 2026-04-20	Grok 4.20 Grok 4.20 none Veröffentlichung: 2026-03-31
Punktzahl	5.7	5.4
Rang	#102	#115
Zuverlässigkeit	10.0	k. A.
Konsistenz	9.2	9.5
Korrekte Tests
Erfolgsquote pro Versuch	40.4%	35.2%
Instabile Tests	2	1
Gesamtläufe	57	54
Kosten pro Ergebnis	0.546	1.574
Gesamtkosten	$0.039	$0.095
Eingabepreis	$0.750 / 1M	$1.250 / 1M
Ausgabepreis	$3.500 / 1M	$2.500 / 1M
Ausgabe-Token	2,990	1,967
Denk-Token	0	0
Antwortzeit (Durchschnitt)	2.02s	1.11s
Antwortzeit (Maximum)	6.65s	6.04s
Antwortzeit (Gesamt)	38.29s	20.02s

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Kimi K2.6	4.6	10.0	25.0%	0		1.39s	471	0
Grok 4.20	4.8	10.0	25.0%	0		501ms	267	0

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Kimi K2.6	10.0	10.0	100.0%	0		6.65s	1,176	0
Grok 4.20	3.4	9.3	0.0%	0		1.22s	312	0

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Kimi K2.6	3.0	10.0	0.0%	0		3.38s	290	0
Grok 4.20	3.0	10.0	0.0%	0		6.04s	282	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Kimi K2.6	10.0	10.0	100.0%	0		1.32s	201	0
Grok 4.20	10.0	10.0	100.0%	0		522ms	207	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Kimi K2.6	5.3	7.2	44.4%	1		1.48s	42	0
Grok 4.20	3.0	10.0	0.0%	0		687ms	325	0

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Kimi K2.6	5.4	3.5	33.3%	1		1.55s	138	0
Grok 4.20	4.8	10.0	0.0%	0		659ms	83	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Kimi K2.6	6.5	10.0	50.0%	0		1.64s	72	0
Grok 4.20	6.3	10.0	50.0%	0		455ms	60	0

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Kimi K2.6	3.2	9.8	0.0%	0		1.66s	343	0
Grok 4.20	5.3	7.2	44.4%	1		487ms	242	0

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Kimi K2.6	10.0	10.0	100.0%	0		4.46s	240	0
Grok 4.20	10.0	10.0	100.0%	0		4.63s	189	0

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Kimi K2.6	3.0	10.0	0.0%	0		1.36s	17	0
Grok 4.20	-	-	-	-	-	-	-	-

Schnellvergleich

Vergleichspaar wechseln

Kimi K2.6nonevsgpt-oss-120bmediumKostenlos verfügbar Elephant AlphamediumvsGrok 4.20none CobuddymediumKostenlos verfügbarvsKimi K2.6none Mistral Small 4mediumvsGrok 4.20none MiniMax M2.5mediumKostenlos verfügbarvsGrok 4.20none MiniMax M2.5mediumKostenlos verfügbarvsKimi K2.6none Mistral Small 4mediumvsKimi K2.6none Kimi K2.6nonevsElephant Alphamedium Kimi K2.6nonevsOwl Alphamedium MiniMax M2.7mediumvsGrok 4.20none gpt-oss-120bmediumKostenlos verfügbarvsGrok 4.20none Kimi K2.6nonevsNemotron 3 SupermediumKostenlos verfügbar