Vergleichen Diagramme

Sprache:

❤️ Made by XCS

AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs MoonshotAI: Kimi K2.5

Vergleichen:

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-03-03

Metrik	Google: Gemini 3.1 Flash Lite Preview none Veröffentlichung: 2026-03-03	MoonshotAI: Kimi K2.5 medium Veröffentlichung: 2026-01-27
Rang	#10	#25
Ø-Score	7.70	6.29
Konsistenz	9.54	7.69
Kosten pro Ergebnis	0.116	2.335
Gesamtkosten	$0.011	$0.187
Korrekte Tests
Erfolgsquote pro Versuch	69.1%	73.8%
Instabile Tests	1	4
Ausgabe-Token	4,307	30,504
Denk-Token	0	58,467

Top-Modelle nach Score

Score vs. Gesamtkosten

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Ausgabe-Token	Denk-Token
Google: Gemini 3.1 Flash Lite Preview	6.00	7.85	55.6%	1		1,086	0
MoonshotAI: Kimi K2.5	7.00	7.21	88.9%	1		335	6,255

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Ausgabe-Token	Denk-Token
Google: Gemini 3.1 Flash Lite Preview	9.88	10.00	100.0%	0		399	0
MoonshotAI: Kimi K2.5	10.00	10.00	100.0%	0		1,181	6,049

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Ausgabe-Token	Denk-Token
Google: Gemini 3.1 Flash Lite Preview	4.00	10.00	33.3%	0		568	0
MoonshotAI: Kimi K2.5	1.00	4.41	33.3%	2		20,696	30,894

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Ausgabe-Token	Denk-Token
Google: Gemini 3.1 Flash Lite Preview	9.00	10.00	50.0%	0		574	0
MoonshotAI: Kimi K2.5	9.50	10.00	100.0%	0		3,777	4,967

Puzzle Solving	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Ausgabe-Token	Denk-Token
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		898	0
MoonshotAI: Kimi K2.5	5.00	7.61	55.6%	1		4,273	9,490

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Ausgabe-Token	Denk-Token
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		782	0
MoonshotAI: Kimi K2.5	10.00	10.00	100.0%	0		242	812

Schnellvergleich

Vergleichspaar wechseln

Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none Claude Sonnet 4.6nonevsKimi K2.5medium Kimi K2.5mediumvsGLM 5none Gemini 3.1 Flash Lite PreviewnonevsGPT-5.3-Codexmedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewnonevsGLM 5medium Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumKostenlos verfügbar DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewnonevsGPT-5.2medium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-27Bmedium Gemini 3 Flash PreviewnonevsKimi K2.5medium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-122B-A10Bmedium