AI BENCHY Compare

Google: Gemini 3.1 Flash Lite vs MoonshotAI: Kimi K2.6

Zusammenfassung

Gemini 3.1 Flash Lite vs Kimi K2.6 Benchmark-Vergleich: Der Durchschnittsscore ist mit 7.8 vs 7.8 praktisch gleichauf. Gemini 3.1 Flash Lite hat die niedrigeren Benchmark-Kosten mit $0.071 vs $0.889. Gemini 3.1 Flash Lite ist schneller mit 3.23s vs 71.67s, mit Erfolgsraten von 65.1% vs 65.1%.

Empfohlenes Modell: Gemini 3.1 Flash Lite - Es hat hier die beste Punktzahl (7.8) und kostet etwa 12.7x weniger als Kimi K2.6.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-18

Metrik	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite medium Veröffentlichung: 2026-05-08	Kimi K2.6 Kimi K2.6 medium Veröffentlichung: 2026-04-20 Kostenlos verfügbar

Metrik	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite medium Veröffentlichung: 2026-05-08	Kimi K2.6 Kimi K2.6 medium Veröffentlichung: 2026-04-20 Kostenlos verfügbar
Punktzahl	7.8	7.8
Rang	#34	#35
Zuverlässigkeit	10.0	10.0
Konsistenz	9.2	8.6
Korrekte Tests
Erfolgsquote pro Versuch	65.1%	65.1%
Instabile Tests	2	3
Gesamtläufe	63	63
Kosten pro Ergebnis	0.539	8.358
Gesamtkosten	$0.071	$0.889
Eingabepreis	$0.250 / 1M	$0.680 / 1M
Ausgabepreis	$1.500 / 1M	$3.410 / 1M
Gesamte Eingabe-Token	36,808	29,450
Ausgabe-Token	2,254	102,923
Denk-Token	38,300	254,094
Antwortzeit (Durchschnitt)	3.23s	71.67s
Antwortzeit (Maximum)	10.87s	406.78s
Antwortzeit (Gesamt)	67.80s	1433.36s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#34 Gemini 3.1 Flash Lite

medium

Kosten: $0.003
Zeit: 5.3s
Token: 1,754 tok

#35 MoonshotAI: Kimi K2.6

medium

Kosten: $0.013
Zeit: 103.4s
Token: 3,620 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	9.1	10.0	75.0%	0		2.39s	502	604	4,201
Kimi K2.6	7.0	8.0	66.7%	1		11.59s	618	7,115	8,934

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	5.5	10.0	33.3%	0		3.81s	8,134	459	8,978
Kimi K2.6	5.7	8.6	33.3%	0		214.42s	2,925	9,970	77,189

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		10.87s	12,873	327	7,401
Kimi K2.6	10.0	10.0	100.0%	0		40.96s	11,271	711	13,876

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		2.60s	7,362	279	2,845
Kimi K2.6	10.0	10.0	100.0%	0		20.38s	7,014	316	11,305

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	2.9	7.2	11.1%	1		3.16s	643	15	5,165
Kimi K2.6	5.3	7.2	44.4%	1		202.38s	326	47,035	98,262

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		2.60s	488	84	1,142
Kimi K2.6	10.0	10.0	100.0%	0		17.83s	477	3,981	4,472

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	9.9	10.0	100.0%	0		2.59s	623	75	3,320
Kimi K2.6	10.0	10.0	100.0%	0		12.53s	669	3,977	5,269

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	7.6	7.2	77.8%	1		1.95s	568	165	2,450
Kimi K2.6	6.0	7.4	55.6%	1		25.06s	651	13,860	17,599

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		4.55s	5,457	234	921
Kimi K2.6	10.0	10.0	100.0%	0		8.92s	5,286	248	1,011

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		3.08s	158	12	1,877
Kimi K2.6	3.0	10.0	0.0%	0		130.27s	213	15,710	16,177

Schnellvergleich

Vergleichspaar wechseln

Kimi K2.6mediumKostenlos verfügbarvsStep 3.7 Flashlow Gemini 3.1 Flash LitemediumvsStep 3.7 Flashlow DeepSeek V4 ProhighvsKimi K2.6mediumKostenlos verfügbar DeepSeek V4 ProhighvsGemini 3.1 Flash Litemedium Kimi K2.6mediumKostenlos verfügbarvsGPT-5.3 Chatnone Gemini 3.1 Flash LitemediumvsGPT-5.3 Chatnone Gemini 3 Flash PreviewlowvsKimi K2.6mediumKostenlos verfügbar Claude Sonnet 4.6nonevsKimi K2.6mediumKostenlos verfügbar Claude Sonnet 4.6nonevsGemini 3.1 Flash Litemedium DeepSeek V4 FlashhighvsGemini 3.1 Flash Litemedium DeepSeek V4 FlashhighvsKimi K2.6mediumKostenlos verfügbar Claude Opus 4.8nonevsKimi K2.6mediumKostenlos verfügbar