AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Google: Gemini 3.1 Flash Lite Preview

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-05-28

Metrik	Claude Opus 4.8 Claude Opus 4.8 medium Veröffentlichung: 2026-05-28	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview low Veröffentlichung: 2026-03-03

Metrik	Claude Opus 4.8 Claude Opus 4.8 medium Veröffentlichung: 2026-05-28	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview low Veröffentlichung: 2026-03-03
Punktzahl	8.7	7.6
Rang	#12	#47
Zuverlässigkeit	10.0	10.0
Konsistenz	9.6	10.0
Korrekte Tests
Erfolgsquote pro Versuch	83.3%	65.0%
Instabile Tests	1	0
Gesamtläufe	60	60
Kosten pro Ergebnis	6.285	0.186
Gesamtkosten	$1.006	$0.025
Eingabepreis	$5.000 / 1M	$0.250 / 1M
Ausgabepreis	$25.000 / 1M	$1.500 / 1M
Ausgabe-Token	23,201	2,280
Denk-Token	5,901	8,829
Antwortzeit (Durchschnitt)	9.34s	2.85s
Antwortzeit (Maximum)	38.03s	11.91s
Antwortzeit (Gesamt)	186.84s	57.08s

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Opus 4.8	10.0	10.0	100.0%	0		3.95s	1,179	478
Gemini 3.1 Flash Lite Preview	8.3	10.0	75.0%	0		2.12s	462	1,638

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Opus 4.8	10.0	10.0	100.0%	0		14.97s	6,651	1,381
Gemini 3.1 Flash Lite Preview	6.8	10.0	50.0%	0		1.56s	654	723

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Opus 4.8	9.8	10.0	100.0%	0		38.03s	5,260	1,588
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		11.91s	225	762

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Opus 4.8	7.1	5.6	83.3%	1		12.29s	481	312
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.00s	291	696

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Opus 4.8	5.3	10.0	33.3%	0		14.15s	7,477	900
Gemini 3.1 Flash Lite Preview	5.3	10.0	33.3%	0		2.36s	18	1,212

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Opus 4.8	10.0	10.0	100.0%	0		2.46s	237	0
Gemini 3.1 Flash Lite Preview	4.0	10.0	0.0%	0		1.54s	69	384

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Opus 4.8	10.0	10.0	100.0%	0		3.32s	373	320
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.49s	72	753

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Opus 4.8	10.0	10.0	100.0%	0		3.95s	791	483
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.69s	243	1,248

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Opus 4.8	10.0	10.0	100.0%	0		8.96s	301	225
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		9.54s	237	993

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Opus 4.8	3.0	10.0	0.0%	0		6.14s	451	214
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		1.35s	9	420

Schnellvergleich

Vergleichspaar wechseln

Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5-Promedium DeepSeek V4 FlashhighKostenlos verfügbarvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewlowvsQwen3.5 Plus 2026-04-20medium Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 Flashmedium Gemini 3.1 Flash Lite PreviewlowvsGrok Build 0.1medium Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2-Promedium Claude Opus 4.8mediumvsGemini 3 Flash Previewlow Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-122B-A10Bmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 Plusmedium Gemini 3.1 Flash Lite PreviewlowvsGrok 4.3medium