Anthropic: Claude Opus 4.8 vs Google: Gemini 3.1 Flash Lite Preview

Der Durchschnittsscore ist mit 7.3 vs 7.3 praktisch gleichauf. Gemini 3.1 Flash Lite Preview (medium) hat die niedrigeren Benchmark-Kosten mit $0.115 vs $1.166. Gemini 3.1 Flash Lite Preview (medium) ist schneller mit 4.61s vs 4.91s, mit Erfolgsraten von 63.6% vs 59.1%.

Empfohlenes ModellGemini 3.1 Flash Lite Preview (medium)Es hat hier die beste Punktzahl (7.3) und kostet etwa 10.2x weniger als Claude Opus 4.8.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-17

Metrik	Claude Opus 4.8 Claude Opus 4.8 none Veröffentlichung: 2026-05-28	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Veröffentlichung: 2026-03-03

Metrik	Claude Opus 4.8 Claude Opus 4.8 none Veröffentlichung: 2026-05-28	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Veröffentlichung: 2026-03-03
Punktzahl	7.3	7.3
Rang	#63	#61
Zuverlässigkeit	10.0	10.0
Konsistenz	9.2	9.9
Korrekte Tests
Erfolgsquote pro Versuch	63.6%	59.1%
Instabile Tests	2	0
Gesamtläufe	66	66
Kosten pro Ergebnis	8.969	0.884
Gesamtkosten	$1.166	$0.115
Eingabepreis	$5.000 / 1M	$0.250 / 1M
Ausgabepreis	$25.000 / 1M	$1.500 / 1M
Gesamte Eingabe-Token	149,206	117,480
Ausgabe-Token	16,797	10,589
Denk-Token	0	46,394
Antwortzeit (Durchschnitt)	4.91s	4.61s
Antwortzeit (Maximum)	35.03s	18.34s
Antwortzeit (Gesamt)	108.03s	101.39s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#63 Claude Opus 4.8

none

Kosten: $0.053
Zeit: 22.0s
Token: 2,253 tok

#61 Gemini 3.1 Flash Lite Preview

medium

Kosten: $0.003
Zeit: 5.2s
Token: 1,944 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Kategorie:

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
Gemini 3.1 Flash Lite Preview	9.1	10.0	75.0%	0		2.33s	512	570	4,305

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	5.5	10.0	33.3%	0		3.29s	10,590	1,332	0
Gemini 3.1 Flash Lite Preview	5.5	10.0	33.3%	0		4.09s	8,126	461	8,597

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	9.8	10.0	100.0%	0		26.38s	111,760	11,949	0
Gemini 3.1 Flash Lite Preview	7.2	9.1	50.0%	0		16.63s	93,097	8,706	16,997

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		2.29s	7,362	279	2,952

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	5.3	7.2	44.4%	1		1.70s	975	61	0
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		4.21s	639	18	5,325

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.16s	488	96	1,488

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.91s	621	72	2,121

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
Gemini 3.1 Flash Lite Preview	7.7	10.0	66.7%	0		5.30s	566	141	1,896

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.80s	5,909	234	912

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		2.68s	160	12	1,801

Schnellvergleich

Vergleichspaar wechseln

Claude Opus 4.8nonevsStep 3.7 Flashlow Claude Opus 4.8nonevsKimi K2.6medium Claude Sonnet 4.6nonevsGemini 3.1 Flash Lite Previewmedium Claude Opus 4.8nonevsGemini 3.1 Flash Litemedium Claude Opus 4.8nonevsKAT-Coder-Pro V2.5high Gemini 3.1 Flash Lite PreviewmediumvsKAT-Coder-Pro V2.5low Gemini 3.1 Flash Lite PreviewmediumvsStep 3.7 Flashlow Claude Opus 4.8nonevsQwen3.5 Plus 2026-04-20medium Gemini 3.1 Flash Lite PreviewmediumvsKAT-Coder-Pro V2.5high Claude Opus 4.8nonevsKAT-Coder-Pro V2.5low Claude Opus 4.8nonevsGemini 3 Flash Previewlow Claude Opus 4.8nonevsQwen3.5-122B-A10Bmedium