AI BENCHY Compare

Verglichene Modelle

Zusammenfassung

Benchmark-Vergleich Gemma 4 31B vs Gemini 3 Flash Preview vs Gemini 3 PRO Preview vs Gemini 3.1 Pro PreviewGemini 3 Flash Preview führt bei Punktzahl mit 9.6. Gemma 4 31B führt bei Zuverlässigkeit mit 10.0. Gemma 4 31B hat den niedrigsten Gesamtkosten mit $0.033. Gemini 3 PRO Preview ist mit 9.05s am schnellsten.

Empfohlenes Modell: Gemini 3 Flash Preview - Es hat hier die beste Punktzahl (9.6) und antwortet etwa 1.5x schneller als die anderen Modelle in diesem Vergleich.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-02

Metrik	Gemma 4 31B Gemma 4 31B medium Veröffentlichung: 2026-04-02 Kostenlos verfügbar	Gemini 3 Flash Preview Gemini 3 Flash Preview medium Veröffentlichung: 2025-12-17	Gemini 3 PRO Preview Gemini 3 PRO Preview medium Veröffentlichung: 2025-11-18	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Veröffentlichung: 2026-02-19

Metrik	Gemma 4 31B Gemma 4 31B medium Veröffentlichung: 2026-04-02 Kostenlos verfügbar	Gemini 3 Flash Preview Gemini 3 Flash Preview medium Veröffentlichung: 2025-12-17	Gemini 3 PRO Preview Gemini 3 PRO Preview medium Veröffentlichung: 2025-11-18	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Veröffentlichung: 2026-02-19
Punktzahl	6.3	9.6	6.2	9.2
Rang	#91	#2	#94	#7
Zuverlässigkeit	10.0	10.0	k. A.	10.0
Konsistenz	9.4	9.7	10.0	10.0
Korrekte Tests
Erfolgsquote pro Versuch	69.8%	98.4%	66.7%	90.5%
Instabile Tests	1	1	0	0
Gesamtläufe	63	63	63	63
Kosten pro Ergebnis	0.257	3.335	1.406	5.546
Gesamtkosten	$0.033	$0.667	$0.385	$1.054
Eingabepreis	$0.120 / 1M	$0.500 / 1M	$9.506 / 1M	$2.000 / 1M
Ausgabepreis	$0.350 / 1M	$3.000 / 1M	$9.506 / 1M	$12.000 / 1M
Gesamte Eingabe-Token	17,957	37,017	28,848	41,617
Ausgabe-Token	22,356	2,006	1,490	1,977
Denk-Token	65,726	214,153	10,102	78,896
Antwortzeit (Durchschnitt)	56.55s	18.64s	9.05s	20.14s
Antwortzeit (Maximum)	437.40s	117.26s	26.24s	88.68s
Antwortzeit (Gesamt)	1074.41s	391.35s	90.53s	281.92s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#91 Gemma 4 31B

medium

Kosten: $0.002
Zeit: 45.7s
Token: 2,696 tok

#2 Gemini 3 Flash Preview

medium

Kosten: $0.010
Zeit: 17.9s
Token: 3,236 tok

#94 Gemini 3 PRO Preview

medium

No endpoints found for google/gemini-3-pro-preview.

Kosten: $0.000
Zeit: 0.1s
Token: 0 tok

#7 Gemini 3.1 Pro Preview

medium

Kosten: $0.115
Zeit: 87.2s
Token: 9,629 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemma 4 31B	10.0	10.0	100.0%	12.89s	816	962	2,046
Gemini 3 Flash Preview	10.0	10.0	100.0%	3.88s	494	330	3,216
Gemini 3 PRO Preview	10.0	10.0	100.0%	14.99s	500	149	1,485
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	7.90s	498	112	3,218

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemma 4 31B	4.3	5.8	22.2%	1	219.76s	5,568	11,098	33,212
Gemini 3 Flash Preview	8.6	7.6	88.9%	1	84.40s	8,122	462	161,084
Gemini 3 PRO Preview	3.0	10.0	0.0%	0	0ms	0	0	0
Gemini 3.1 Pro Preview	7.9	9.9	66.7%	0	40.17s	8,124	435	41,247

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemma 4 31B	3.0	10.0	0.0%	0ms	0	0	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	22.42s	12,873	351	10,485
Gemini 3 PRO Preview	3.0	10.0	0.0%	10.37s	13,211	351	952
Gemini 3.1 Pro Preview	9.5	10.0	100.0%	40.61s	17,240	432	9,281

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemma 4 31B	10.0	10.0	100.0%	21.11s	8,334	1,822	2,951
Gemini 3 Flash Preview	10.0	10.0	100.0%	5.43s	7,548	279	4,893
Gemini 3 PRO Preview	10.0	10.0	100.0%	10.84s	7,259	279	3,156
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	7.72s	7,265	279	3,904

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemma 4 31B	7.7	10.0	66.7%	38.48s	876	4,349	8,985
Gemini 3 Flash Preview	10.0	10.0	100.0%	15.27s	633	12	21,684
Gemini 3 PRO Preview	5.3	10.0	33.3%	7.01s	643	15	1,195
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	32.73s	635	18	12,424

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemma 4 31B	10.0	10.0	100.0%	9.57s	567	105	888
Gemini 3 Flash Preview	10.0	10.0	100.0%	5.19s	486	72	1,905
Gemini 3 PRO Preview	10.0	10.0	100.0%	9.34s	486	78	374
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	11.77s	490	108	1,179

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemma 4 31B	10.0	10.0	100.0%	12.76s	777	533	2,035
Gemini 3 Flash Preview	10.0	10.0	100.0%	4.04s	615	72	2,709
Gemini 3 PRO Preview	9.8	10.0	100.0%	3.26s	623	69	754
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	9.56s	621	72	2,236

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemma 4 31B	9.9	10.0	100.0%	26.91s	801	1,795	5,595
Gemini 3 Flash Preview	10.0	10.0	100.0%	4.05s	558	183	4,365
Gemini 3 PRO Preview	10.0	10.0	100.0%	3.88s	570	225	1,215
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	6.90s	570	235	3,128

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemma 4 31B	3.0	10.0	0.0%	0ms	0	0	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	12.60s	5,532	234	1,487
Gemini 3 PRO Preview	10.0	10.0	100.0%	11.96s	5,556	324	971
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	23.15s	6,018	274	982

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemma 4 31B	3.0	10.0	0.0%	90.14s	218	1,692	10,014
Gemini 3 Flash Preview	10.0	10.0	100.0%	5.50s	156	11	2,325
Gemini 3 PRO Preview	3.0	10.0	0.0%	0ms	0	0	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	6.27s	156	12	1,297

Schnellvergleich

Vergleichspaar wechseln