AI BENCHY Compare

Google: Gemma 4 31B vs OpenAI: GPT-5.2

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-05-10

Metrik	Gemma 4 31B Gemma 4 31B none Veröffentlichung: 2026-04-02 Kostenlos verfügbar	GPT-5.2 GPT-5.2 medium Veröffentlichung: 2025-12-11

Metrik	Gemma 4 31B Gemma 4 31B none Veröffentlichung: 2026-04-02 Kostenlos verfügbar	GPT-5.2 GPT-5.2 medium Veröffentlichung: 2025-12-11
Punktzahl	6.9	7.2
Rang	#66	#60
Zuverlässigkeit	10.0	10.0
Konsistenz	10.0	8.2
Korrekte Tests
Erfolgsquote pro Versuch	52.6%	68.4%
Instabile Tests	0	4
Gesamtläufe	57	57
Kosten pro Ergebnis	0.025	3.609
Gesamtkosten	$0.003	$0.397
Eingabepreis	$0.130 / 1M	$1.750 / 1M
Ausgabepreis	$0.380 / 1M	$14.000 / 1M
Ausgabe-Token	1,371	2,731
Denk-Token	0	22,200
Antwortzeit (Durchschnitt)	3.86s	15.22s
Antwortzeit (Maximum)	26.13s	77.80s
Antwortzeit (Gesamt)	65.57s	182.59s

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Gemma 4 31B	6.5	10.0	50.0%	0		1.85s	45	0
GPT-5.2	6.5	8.0	58.3%	1		7.81s	567	2,002

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Gemma 4 31B	10.0	10.0	100.0%	0		26.13s	699	0
GPT-5.2	10.0	10.0	100.0%	0		15.12s	467	2,166

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0
GPT-5.2	10.0	10.0	100.0%	0		14.06s	291	1,757

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Gemma 4 31B	10.0	10.0	100.0%	0		2.25s	285	0
GPT-5.2	10.0	10.0	100.0%	0		3.15s	234	420

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Gemma 4 31B	7.7	10.0	66.7%	0		3.22s	27	0
GPT-5.2	5.9	7.2	55.6%	1		77.80s	42	10,342

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Gemma 4 31B	10.0	10.0	100.0%	0		2.09s	117	0
GPT-5.2	3.7	9.7	0.0%	0		4.32s	162	269

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Gemma 4 31B	6.5	10.0	50.0%	0		2.84s	78	0
GPT-5.2	9.9	10.0	100.0%	0		3.12s	94	614

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Gemma 4 31B	6.5	10.0	33.3%	0		2.95s	108	0
GPT-5.2	7.6	7.3	77.8%	1		5.47s	609	938

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0
GPT-5.2	4.7	1.6	66.7%	1		10.30s	239	469

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Gemma 4 31B	3.0	10.0	0.0%	0		1.25s	12	0
GPT-5.2	3.0	10.0	0.0%	0		28.18s	26	3,223

Schnellvergleich

Vergleichspaar wechseln

DeepSeek V4 ProhighvsGemma 4 31BnoneKostenlos verfügbar Gemma 4 31BnoneKostenlos verfügbarvsGrok 4.20medium Claude Sonnet 4.6nonevsGPT-5.2medium Ring 2.6 1tnoneKostenlos verfügbarvsGPT-5.2medium GPT-5.2mediumvsQwen3.6 Max Previewnone Gemma 4 31BnoneKostenlos verfügbarvsGPT-5 Minimedium Gemma 4 31BnoneKostenlos verfügbarvsKimi K2.5medium Gemma 4 31BnoneKostenlos verfügbarvsQwen3.6 27Bmedium Gemma 4 31BnoneKostenlos verfügbarvsMiMo-V2-Omnimedium Gemma 4 31BnoneKostenlos verfügbarvsGPT-5.4 Minimedium DeepSeek V3.2mediumvsGemma 4 31BnoneKostenlos verfügbar Gemma 4 31BnoneKostenlos verfügbarvsQwen3.5-35B-A3Bmedium