AI BENCHY Compare

Google: Gemini 3.1 Flash Lite vs OpenAI: GPT-5.3-Codex

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-05-22

Metrik	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite minimal Veröffentlichung: 2026-05-08	GPT-5.3-Codex GPT-5.3-Codex medium Veröffentlichung: 2026-02-05

Metrik	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite minimal Veröffentlichung: 2026-05-08	GPT-5.3-Codex GPT-5.3-Codex medium Veröffentlichung: 2026-02-05
Punktzahl	6.7	8.3
Rang	#78	#15
Zuverlässigkeit	10.0	10.0
Konsistenz	8.8	8.4
Korrekte Tests
Erfolgsquote pro Versuch	56.7%	81.7%
Instabile Tests	3	4
Gesamtläufe	60	60
Kosten pro Ergebnis	0.123	4.891
Gesamtkosten	$0.013	$0.685
Eingabepreis	$0.250 / 1M	$1.750 / 1M
Ausgabepreis	$1.500 / 1M	$14.000 / 1M
Ausgabe-Token	2,481	2,332
Denk-Token	0	42,616
Antwortzeit (Durchschnitt)	1.37s	15.97s
Antwortzeit (Maximum)	4.49s	100.93s
Antwortzeit (Gesamt)	27.32s	319.30s

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	8.3	10.0	75.0%	0		1.10s	639	0
GPT-5.3-Codex	8.7	7.9	91.7%	1		4.16s	240	1,722

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	6.8	10.0	50.0%	0		951ms	660	0
GPT-5.3-Codex	10.0	10.0	100.0%	0		18.45s	514	7,266

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		2.53s	357	0
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.56s	364	2,731

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		1.04s	279	0
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.07s	234	728

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	2.9	7.2	11.1%	1		1.02s	15	0
GPT-5.3-Codex	5.9	7.2	55.6%	1		64.31s	64	25,308

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	4.0	10.0	0.0%	0		791ms	63	0
GPT-5.3-Codex	4.6	10.0	0.0%	0		4.87s	187	331

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		932ms	72	0
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	93	693

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	6.0	4.6	66.7%	2		2.15s	153	0
GPT-5.3-Codex	9.0	7.9	88.9%	1		5.12s	352	1,644

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		3.51s	234	0
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	254	492

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		724ms	9	0
GPT-5.3-Codex	2.8	1.6	33.3%	1		14.43s	30	1,701

Schnellvergleich

Vergleichspaar wechseln

Gemini 3.1 Flash LiteminimalvsKimi K2.5medium DeepSeek V4 ProhighvsGemini 3.1 Flash Liteminimal Gemini 3.1 Flash LiteminimalvsGrok 4.20medium Gemini 3.1 Flash LiteminimalvsGrok Build 0.1none Gemini 3.1 Flash LiteminimalvsQwen3.6 27Bmedium Gemini 3.1 Flash LiteminimalvsGPT-5.5none Gemini 3.1 Flash LiteminimalvsGPT-5 Minimedium Gemini 3.1 Flash LiteminimalvsMiMo-V2-Omnimedium Gemini 3.1 Flash LiteminimalvsQwen3.5 Plus 2026-02-15none Gemini 3 Flash PreviewlowvsGPT-5.3-Codexmedium DeepSeek V3.2mediumvsGemini 3.1 Flash Liteminimal Gemini 3.1 Flash LiteminimalvsQwen3.5-35B-A3Bmedium