AI BENCHY Compare

Google: Gemini 3.1 Flash Lite vs MoonshotAI: Kimi K2.6

Zusammenfassung

Gemini 3.1 Flash Lite vs Kimi K2.6 Benchmark-Vergleich: Kimi K2.6 führt beim Durchschnittsscore mit 7.8 vs 6.4. Gemini 3.1 Flash Lite hat die niedrigeren Benchmark-Kosten mit $0.028 vs $0.889. Gemini 3.1 Flash Lite ist schneller mit 1.89s vs 71.67s, mit Erfolgsraten von 61.9% vs 65.1%.

Empfohlenes Modell: Gemini 3.1 Flash Lite - Es bietet den besten Gesamtkompromiss: wettbewerbsfähige Punktzahl (6.4), niedrigere Kosten als Kimi K2.6 und ausgewogene Antwortzeit.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-18

Metrik	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite low Veröffentlichung: 2026-05-08	Kimi K2.6 Kimi K2.6 medium Veröffentlichung: 2026-04-20 Kostenlos verfügbar

Metrik	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite low Veröffentlichung: 2026-05-08	Kimi K2.6 Kimi K2.6 medium Veröffentlichung: 2026-04-20 Kostenlos verfügbar
Punktzahl	6.4	7.8
Rang	#85	#35
Zuverlässigkeit	10.0	10.0
Konsistenz	9.3	8.6
Korrekte Tests
Erfolgsquote pro Versuch	61.9%	65.1%
Instabile Tests	2	3
Gesamtläufe	63	63
Kosten pro Ergebnis	0.227	8.358
Gesamtkosten	$0.028	$0.889
Eingabepreis	$0.250 / 1M	$0.680 / 1M
Ausgabepreis	$1.500 / 1M	$3.410 / 1M
Gesamte Eingabe-Token	36,892	29,450
Ausgabe-Token	2,732	102,923
Denk-Token	9,260	254,094
Antwortzeit (Durchschnitt)	1.89s	71.67s
Antwortzeit (Maximum)	5.66s	406.78s
Antwortzeit (Gesamt)	39.62s	1433.36s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#85 Gemini 3.1 Flash Lite

low

Kosten: $0.003
Zeit: 4.0s
Token: 1,479 tok

#35 MoonshotAI: Kimi K2.6

medium

Kosten: $0.013
Zeit: 103.4s
Token: 3,620 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	7.3	6.2	75.0%	2		1.84s	500	1,013	1,548
Kimi K2.6	7.0	8.0	66.7%	1		11.59s	618	7,115	8,934

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	5.5	10.0	33.3%	0		1.53s	8,132	471	1,072
Kimi K2.6	5.7	8.6	33.3%	0		214.42s	2,925	9,970	77,189

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		4.48s	12,870	348	975
Kimi K2.6	10.0	10.0	100.0%	0		40.96s	11,271	711	13,876

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		1.44s	7,453	291	697
Kimi K2.6	10.0	10.0	100.0%	0		20.38s	7,014	316	11,305

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	5.3	10.0	33.3%	0		1.52s	639	15	1,214
Kimi K2.6	5.3	7.2	44.4%	1		202.38s	326	47,035	98,262

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	4.0	10.0	0.0%	0		1.37s	492	69	438
Kimi K2.6	10.0	10.0	100.0%	0		17.83s	477	3,981	4,472

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		1.52s	619	72	760
Kimi K2.6	10.0	10.0	100.0%	0		12.53s	669	3,977	5,269

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		1.40s	570	210	1,191
Kimi K2.6	6.0	7.4	55.6%	1		25.06s	651	13,860	17,599

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		5.66s	5,457	234	945
Kimi K2.6	10.0	10.0	100.0%	0		8.92s	5,286	248	1,011

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		1.46s	160	9	420
Kimi K2.6	3.0	10.0	0.0%	0		130.27s	213	15,710	16,177

Schnellvergleich

Vergleichspaar wechseln