AI BENCHY Compare

Google: Gemini 3.5 Flash vs xAI: Grok Build 0.1

Zusammenfassung

Gemini 3.5 Flash vs Grok Build 0.1 Benchmark-Vergleich: Gemini 3.5 Flash führt beim Durchschnittsscore mit 9.8 vs 7.6. Grok Build 0.1 hat die niedrigeren Benchmark-Kosten mit $0.927 vs $1.115. Gemini 3.5 Flash ist schneller mit 8.84s vs 49.90s, mit Erfolgsraten von 96.8% vs 61.9%.

Empfohlenes Modell: Gemini 3.5 Flash - Es hat hier die beste Punktzahl (9.8) und antwortet etwa 5.6x schneller als Grok Build 0.1.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-02

Metrik	Gemini 3.5 Flash Gemini 3.5 Flash high Veröffentlichung: 2026-05-19	Grok Build 0.1 Grok Build 0.1 medium Veröffentlichung: 2026-05-21

Metrik	Gemini 3.5 Flash Gemini 3.5 Flash high Veröffentlichung: 2026-05-19	Grok Build 0.1 Grok Build 0.1 medium Veröffentlichung: 2026-05-21
Punktzahl	9.8	7.6
Rang	#1	#44
Zuverlässigkeit	10.0	10.0
Konsistenz	9.6	9.9
Korrekte Tests
Erfolgsquote pro Versuch	96.8%	61.9%
Instabile Tests	1	0
Gesamtläufe	63	63
Kosten pro Ergebnis	5.575	7.124
Gesamtkosten	$1.115	$0.927
Eingabepreis	$1.500 / 1M	$1.000 / 1M
Ausgabepreis	$9.000 / 1M	$2.000 / 1M
Gesamte Eingabe-Token	37,594	44,418
Ausgabe-Token	1,975	2,782
Denk-Token	115,638	438,018
Antwortzeit (Durchschnitt)	8.84s	49.90s
Antwortzeit (Maximum)	34.82s	252.69s
Antwortzeit (Gesamt)	185.57s	1047.92s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#1 Gemini 3.5 Flash

high

Kosten: $0.208
Zeit: 118.2s
Token: 23,158 tok

#44 xAI: Grok Build 0.1

medium

Kosten: $0.028
Zeit: 81.3s
Token: 14,009 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.57s	492	174	4,997
Grok Build 0.1	8.3	10.0	75.0%	0		7.43s	2,010	220	12,162

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		22.96s	8,118	456	47,129
Grok Build 0.1	5.7	9.7	33.3%	0		108.46s	8,304	1,138	161,452

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		22.37s	12,873	351	16,323
Grok Build 0.1	10.0	10.0	100.0%	0		32.81s	12,909	231	16,917

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		6.43s	7,548	279	8,466
Grok Build 0.1	10.0	10.0	100.0%	0		10.72s	7,761	180	8,876

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	7.6	7.2	77.8%	1		14.09s	633	12	24,721
Grok Build 0.1	5.3	10.0	33.3%	0		158.00s	1,764	492	175,294

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.63s	486	115	1,650
Grok Build 0.1	4.4	9.9	0.0%	0		18.41s	825	76	6,345

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.35s	615	70	3,799
Grok Build 0.1	9.8	10.0	100.0%	0		12.36s	1,362	57	9,599

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.23s	558	241	4,940
Grok Build 0.1	7.7	10.0	66.7%	0		18.26s	1,689	195	20,841

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	9.8	10.0	100.0%	0		4.96s	6,115	265	1,608
Grok Build 0.1	10.0	10.0	100.0%	0		13.12s	7,263	180	4,969

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.94s	156	12	2,005
Grok Build 0.1	3.0	10.0	0.0%	0		53.51s	531	13	21,563

Schnellvergleich

Vergleichspaar wechseln

DeepSeek V4 ProhighvsGrok Build 0.1medium GPT-5.3 ChatnonevsGrok Build 0.1medium Step 3.7 FlashlowvsGrok Build 0.1medium Claude Opus 4.8lowvsGrok Build 0.1medium Gemini 3 Flash PreviewlowvsGrok Build 0.1medium Claude Sonnet 4.6nonevsGrok Build 0.1medium Claude Opus 4.8nonevsGrok Build 0.1medium DeepSeek V4 PrononevsGrok Build 0.1medium Qwen3.7 PlusnonevsGrok Build 0.1medium Grok Build 0.1mediumvsGLM 5.2none Gemini 3.5 FlashhighvsQwen3.7 Maxmedium Step 3.7 FlashhighvsGrok Build 0.1medium