Gemini 3 Flash Preview

Google Veröffentlichung: 2025-12-17 Getestet am: 2026-05-22 00:28 google/gemini-3-flash-preview::medium

(medium) (low) (none)

Zusammenfassung

Gemini 3 Flash Preview erreicht 9.8 bei AI BENCHY und liegt auf #1. Das Modell hat 10.0 Zuverlässigkeit, 98.3% Erfolgsrate, $0.567 Gesamtkosten und 16.72s durchschnittliche Antwortzeit.

Was Gemini 3 Flash Preview besonders macht: Am stärksten ist es in Domänenspezifisch, wo es #1 erreicht; am schwächsten ist Programmierung mit #8. Es gehört insgesamt zu den bestplatzierten Modellen.

Punktzahl

9.8

Konsistenz

9.6

Zuverlässigkeit

10.0

Gesamtkosten (aktueller Preis)

$0.567

Gesamte Ausgabe-Token

183,324

Gesamte Eingabe-Token

Eingabepreis

$0.500 / 1M

Ausgabepreis

$3.000 / 1M

Korrekte Tests

Falsche Tests: 1

Erfolgsquote pro Versuch: 98.3%

Instabile Tests

Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).

Antwortzeit (Durchschnitt)

16.72s

Antwortzeit (Maximum): 117.26s

Antwortzeit (Gesamt): 334.36s

Falsche Antwort: 1

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#1 Gemini 3 Flash Preview

medium

Kosten: $0.010
Zeit: 17.9s
Token: 3,236 tok

Testverlauf

Getestet am	Punktzahl	Zuverlässigkeit	Gesamtkosten	Vergleichen
2026-06-04 13:59 Neuer Test hinzugefügt	9.8	10.0	$0.667	Vergleichen
2026-05-22 00:28 Suite geändert	9.8	10.0	$0.567	Aktueller Lauf
2026-05-06 13:52 Suite geändert	10.0	10.0	$0.321	Vergleichen
2026-05-06 13:38 Suite geändert	9.8	10.0	$0.320	Vergleichen
2026-04-23 15:25 Erneuter Test	10.0	k. A.	$0.108	Vergleichen
2026-04-11 01:44 Erster erfasster Lauf	10.0	k. A.	$0.314	Vergleichen

Dieser Lauf nutzte eine andere Benchmark-Suite. Berücksichtige Suite-Änderungen bei der historischen Einordnung.

Laufvergleich

Lauf	Punktzahl	Konsistenz	Zuverlässigkeit	Korrekte Tests	Instabile Tests	Gesamte Ausgabe-Token	Gesamte Eingabe-Token	Gesamtkosten	Antwortzeit (Durchschnitt)
2026-05-22 00:28 · Suite geändert	9.8	9.6	10.0	19/20	1	183,324	0	$0.567	16.72s
2026-06-04 13:59 · Neuer Test hinzugefügt	9.8	9.7	10.0	20/21	1	216,159	37,017	$0.667	18.64s
Differenz	0.0	-0.1	0.0	-1	0	-32835	-37017	-$0.101	-1917ms

Diese beiden Läufe nutzten unterschiedliche Benchmark-Suiten, daher spiegeln die Deltas sowohl Modell- als auch Suite-Änderungen wider.

Diagramme

Wähle zuerst das erste Modell und klicke dann ein zweites Modell, um eine Seite im direkten Vergleich zu öffnen.

Top-Modelle nach Score

Punktzahl vs Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Schnellvergleich

Gemini 3 Flash PreviewmediumvsGemini 3.5 Flashhigh Gemini 3 Flash PreviewmediumvsQwen3.7 Maxmedium Gemini 3 Flash PreviewmediumvsGPT-5.5low Gemini 3 Flash PreviewmediumvsGemini 3.5 Flashlow Gemini 3 Flash PreviewmediumvsNemotron 3 Ultra 550b A55bmediumKostenlos verfügbar

Kategorieaufschlüsselung

Kategorie	Punktzahl	Konsistenz
Anti-KI-Tricks	10.0	10.0
Programmierung	7.9	6.4
Kombiniert	10.0	10.0
Datenanalyse und -extraktion	10.0	10.0
Domänenspezifisch	10.0	10.0
Allgemeine Intelligenz	10.0	10.0
Befolgung von Anweisungen	10.0	10.0
Rätsellösen	10.0	10.0
Werkzeugaufrufe	10.0	10.0
Allgemeinwissen	10.0	10.0

Gemini 3 Flash Preview

Hamster playing table tennis

#1 Gemini 3 Flash Preview

Diagramme

Top-Modelle nach Score

Punktzahl vs Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Schnellvergleich

Kategorieaufschlüsselung

Verglichene Modelle