AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs xAI: Grok 4.20

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-04

Metrik	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview none Veröffentlichung: 2026-03-03	Grok 4.20 Grok 4.20 medium Veröffentlichung: 2026-03-31

Metrik	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview none Veröffentlichung: 2026-03-03	Grok 4.20 Grok 4.20 medium Veröffentlichung: 2026-03-31
Punktzahl	7.2	7.1
Rang	#58	#65
Zuverlässigkeit	10.0	10.0
Konsistenz	9.7	8.8
Korrekte Tests
Erfolgsquote pro Versuch	60.3%	63.5%
Instabile Tests	1	3
Gesamtläufe	63	63
Kosten pro Ergebnis	0.148	8.309
Gesamtkosten	$0.018	$0.609
Eingabepreis	$0.250 / 1M	$1.250 / 1M
Ausgabepreis	$1.500 / 1M	$2.500 / 1M
Gesamte Eingabe-Token	37,582	44,433
Ausgabe-Token	5,547	1,819
Denk-Token	0	219,524
Antwortzeit (Durchschnitt)	1.21s	27.68s
Antwortzeit (Maximum)	3.39s	199.66s
Antwortzeit (Gesamt)	25.45s	581.26s

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite Preview	7.5	8.4	66.7%	1		1.04s	504	1,092	0
Grok 4.20	8.2	7.9	83.3%	1		3.95s	2,010	287	8,312

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite Preview	5.5	10.0	33.3%	0		967ms	8,128	670	0
Grok 4.20	6.3	6.6	55.6%	1		109.93s	8,307	268	103,150

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		3.20s	13,026	339	0
Grok 4.20	10.0	10.0	100.0%	0		17.40s	12,909	232	9,556

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.22s	7,550	399	0
Grok 4.20	10.0	10.0	100.0%	0		4.17s	7,761	180	5,333

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite Preview	5.3	10.0	33.3%	0		942ms	641	568	0
Grok 4.20	5.3	10.0	33.3%	0		27.03s	1,764	375	49,339

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite Preview	4.0	10.0	0.0%	0		741ms	488	69	0
Grok 4.20	3.9	2.6	33.3%	1		24.48s	825	65	6,440

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.13s	623	574	0
Grok 4.20	9.8	10.0	100.0%	0		4.26s	1,362	57	6,419

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		900ms	570	1,045	0
Grok 4.20	7.7	10.0	66.7%	0		6.22s	1,689	149	7,913

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.39s	5,894	782	0
Grok 4.20	3.0	10.0	0.0%	0		13.68s	7,275	197	6,620

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		814ms	158	9	0
Grok 4.20	3.0	10.0	0.0%	0		63.48s	531	9	16,442

Schnellvergleich

Vergleichspaar wechseln

Gemini 3.1 Flash Lite PreviewnonevsGLM 5V Turbomedium Gemini 3.1 Flash Lite PreviewnonevsKimi K2.6mediumKostenlos verfügbar Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 Flashmedium Gemini 3.1 Flash Lite PreviewnonevsStep 3.7 Flashlow Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2.5medium Gemini 3.1 Flash Lite PreviewnonevsGLM 5.1medium GPT-5.3 ChatnonevsGrok 4.20medium Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewnonevsGPT-5 Minimedium Gemini 3.1 Flash LitelowvsGrok 4.20medium Claude Opus 4.8nonevsGrok 4.20medium Step 3.7 FlashhighvsGrok 4.20medium