Verglichene Modelle

Benchmark-Vergleich Grok 4.20 Beta (medium) vs Grok 4.20 Multi Agent Beta (medium) vs Grok 4.1 Fast (medium) vs Gemini 3 Flash Preview (medium): Gemini 3 Flash Preview (medium) führt bei Punktzahl mit 9.6. Grok 4.1 Fast (medium) führt bei Zuverlässigkeit mit 10.0. Grok 4.1 Fast (medium) hat den niedrigsten Gesamtkosten mit $0.069. Grok 4.20 Multi Agent Beta (medium) ist mit 9.69s am schnellsten.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-28

Rang: #147
Gesamte Ausgabe-Token: 93,212
Antwortzeit (Durchschnitt): 9.75s
Gesamtkosten: $0.750

Rang: #203
Gesamte Ausgabe-Token: 600,042
Antwortzeit (Durchschnitt): 9.69s
Gesamtkosten: $5.599

Rang: #207
Gesamte Ausgabe-Token: 98,340
Antwortzeit (Durchschnitt): 23.85s
Gesamtkosten: $0.069

Rang: #3
Gesamte Ausgabe-Token: 232,650
Antwortzeit (Durchschnitt): 19.20s
Gesamtkosten: $0.742

Empfohlenes Modell Gemini 3 Flash Preview (medium)

Es hat hier die beste Punktzahl (9.6) und kostet etwa 2.9x weniger als die anderen Modelle in diesem Vergleich.

Detaillierter Vergleich

Metrik	Grok 4.20 Beta Grok 4.20 Beta medium Veröffentlichung: 2026-03-12	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium Veröffentlichung: 2026-03-12	Grok 4.1 Fast Grok 4.1 Fast medium Veröffentlichung: 2025-11-19	Gemini 3 Flash Preview Gemini 3 Flash Preview medium Veröffentlichung: 2025-12-17

Metrik	Grok 4.20 Beta Grok 4.20 Beta medium Veröffentlichung: 2026-03-12	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium Veröffentlichung: 2026-03-12	Grok 4.1 Fast Grok 4.1 Fast medium Veröffentlichung: 2025-11-19	Gemini 3 Flash Preview Gemini 3 Flash Preview medium Veröffentlichung: 2025-12-17
Punktzahl	6.0	4.8	4.7	9.6
Rang	#147	#203	#207	#3
Zuverlässigkeit	k. A.	k. A.	10.0	10.0
Konsistenz	7.8	6.4	6.3	9.7
Korrekte Tests
Erfolgsquote pro Versuch	66.7%	48.5%	53.0%	98.5%
Instabile Tests	1	5	6	1
Gesamtläufe	52	52	57	66
Kosten pro Ergebnis	4.505	62.923	0.642	3.533
Gesamtkosten	$0.750	$5.599	$0.069	$0.742
Eingabepreis	$5.805 / 1M	$4.235 / 1M	$0.484 / 1M	$0.500 / 1M
Ausgabepreis	$5.805 / 1M	$4.235 / 1M	$0.484 / 1M	$3.000 / 1M
Gesamte Eingabe-Token	35,955	721,952	42,845	87,861
Ausgabe-Token	1,647	294,668	2,006	5,486
Denk-Token	91,565	305,374	96,334	227,164
Antwortzeit (Durchschnitt)	9.75s	9.69s	23.85s	19.20s
Antwortzeit (Maximum)	31.36s	35.28s	121.79s	117.26s
Antwortzeit (Gesamt)	175.48s	155.07s	286.16s	422.42s

Modell-Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#147 Grok 4.20 Beta

medium

Kosten: $0.034
Zeit: 91.0s
Token: 13,523 tok

#203 Grok 4.20 Multi Agent Beta

medium

Kosten: $0.261
Zeit: 123.4s
Token: 199,344 tok

#207 Grok 4.1 Fast

medium

Grok 4.1 Fast is deprecated. xAI recommends switching to Grok 4.3 (https://openrouter.ai/x-ai/grok-4.3)

Kosten: $0.000
Zeit: 0.1s
Token: 0 tok

#3 Gemini 3 Flash Preview

medium

Kosten: $0.010
Zeit: 18.4s
Token: 3,351 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Kategorie:

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Grok 4.20 Beta	8.7	7.9	91.7%	1	3.16s	2,010	268	7,583
Grok 4.20 Multi Agent Beta	6.9	5.8	75.0%	2	3.46s	90,925	33,706	33,077
Grok 4.1 Fast	8.7	7.9	91.7%	1	3.81s	2,358	108	4,741
Gemini 3 Flash Preview	10.0	10.0	100.0%	0	3.88s	494	330	3,216

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Grok 4.20 Beta	3.3	3.3	33.3%	0	31.36s	360	81	3,987
Grok 4.20 Multi Agent Beta	3.3	3.3	33.3%	0	27.11s	13,212	86	13,141
Grok 4.1 Fast	7.8	4.0	11.1%	1	23.58s	1,167	821	6,703
Gemini 3 Flash Preview	8.6	7.6	88.9%	1	84.40s	8,122	462	161,084

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Grok 4.20 Beta	5.0	5.0	50.0%	20.93s	12,909	227	12,212
Grok 4.20 Multi Agent Beta	1.5	5.0	0.0%	0ms	0	0	0
Grok 4.1 Fast	5.0	5.0	50.0%	37.64s	13,899	261	12,272
Gemini 3 Flash Preview	10.0	10.0	100.0%	26.75s	63,717	3,831	23,496

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Grok 4.20 Beta	10.0	10.0	100.0%	4.01s	7,761	180	5,281
Grok 4.20 Multi Agent Beta	10.0	10.0	100.0%	5.54s	97,232	25,306	25,051
Grok 4.1 Fast	10.0	10.0	100.0%	6.63s	8,001	180	5,409
Gemini 3 Flash Preview	10.0	10.0	100.0%	5.43s	7,548	279	4,893

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Grok 4.20 Beta	5.3	10.0	33.3%	0	21.33s	1,764	251	40,255
Grok 4.20 Multi Agent Beta	2.9	7.2	11.1%	1	24.67s	328,253	164,609	163,647
Grok 4.1 Fast	5.8	4.4	66.7%	2	121.79s	1,777	11	37,657
Gemini 3 Flash Preview	10.0	10.0	100.0%	0	15.27s	633	12	21,684

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Grok 4.20 Beta	10.0	10.0	100.0%	0	5.78s	825	72	3,440
Grok 4.20 Multi Agent Beta	5.8	2.8	66.7%	1	6.40s	41,387	15,848	15,746
Grok 4.1 Fast	4.2	9.9	0.0%	0	16.25s	912	127	3,456
Gemini 3 Flash Preview	10.0	10.0	100.0%	0	5.19s	486	72	1,905

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Grok 4.20 Beta	9.8	10.0	100.0%	4.89s	1,362	57	7,123
Grok 4.20 Multi Agent Beta	9.8	10.0	100.0%	3.52s	43,923	19,752	19,617
Grok 4.1 Fast	6.5	10.0	50.0%	4.63s	1,536	54	3,326
Gemini 3 Flash Preview	10.0	10.0	100.0%	4.04s	615	72	2,709

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Grok 4.20 Beta	10.0	10.0	100.0%	0	3.52s	1,689	328	6,300
Grok 4.20 Multi Agent Beta	6.7	7.9	55.6%	1	5.19s	107,020	35,361	35,095
Grok 4.1 Fast	5.3	7.2	44.4%	1	7.40s	1,950	169	5,904
Gemini 3 Flash Preview	10.0	10.0	100.0%	0	4.05s	558	183	4,365

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Grok 4.20 Beta	3.0	10.0	0.0%	0	12.39s	7,275	183	5,384
Grok 4.20 Multi Agent Beta	3.0	10.0	0.0%	0	0ms	0	0	0
Grok 4.1 Fast	2.8	1.6	33.3%	1	27.71s	10,627	260	11,485
Gemini 3 Flash Preview	10.0	10.0	100.0%	0	12.60s	5,532	234	1,487

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Grok 4.20 Beta	0.0	0.0	0.0%	0ms	0	0	0
Grok 4.20 Multi Agent Beta	0.0	0.0	0.0%	0ms	0	0	0
Grok 4.1 Fast	3.0	10.0	0.0%	25.52s	618	15	5,381
Gemini 3 Flash Preview	10.0	10.0	100.0%	5.50s	156	11	2,325

Schnellvergleich

Vergleichspaar wechseln