AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Poolside: Laguna XS 2.1

Zusammenfassung

Claude Opus 4.8 vs Laguna XS 2.1 Benchmark-Vergleich: Claude Opus 4.8 führt beim Durchschnittsscore mit 7.2 vs 7.0. Laguna XS 2.1 hat die niedrigeren Benchmark-Kosten mit $0.036 vs $0.539. Claude Opus 4.8 ist schneller mit 3.48s vs 30.08s, mit Erfolgsraten von 61.9% vs 44.4%.

Empfohlenes Modell: Laguna XS 2.1 - Die Punktzahl bleibt nah an der besten hier (7.0 vs 7.2) und es kostet etwa 15.3x weniger als Claude Opus 4.8.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-02

Metrik	Claude Opus 4.8 Claude Opus 4.8 none Veröffentlichung: 2026-05-28	Laguna XS 2.1 Laguna XS 2.1 medium Veröffentlichung: 2026-07-02 Kostenlos verfügbar

Metrik	Claude Opus 4.8 Claude Opus 4.8 none Veröffentlichung: 2026-05-28	Laguna XS 2.1 Laguna XS 2.1 medium Veröffentlichung: 2026-07-02 Kostenlos verfügbar
Punktzahl	7.2	7.0
Rang	#59	#67
Zuverlässigkeit	10.0	10.0
Konsistenz	9.2	9.6
Korrekte Tests
Erfolgsquote pro Versuch	61.9%	44.4%
Instabile Tests	2	1
Gesamtläufe	63	63
Kosten pro Ergebnis	4.485	0.392
Gesamtkosten	$0.539	$0.036
Eingabepreis	$5.000 / 1M	$0.060 / 1M
Ausgabepreis	$25.000 / 1M	$0.120 / 1M
Gesamte Eingabe-Token	67,104	45,324
Ausgabe-Token	8,107	25,761
Denk-Token	0	268,677
Antwortzeit (Durchschnitt)	3.48s	30.08s
Antwortzeit (Maximum)	17.73s	155.23s
Antwortzeit (Gesamt)	73.00s	631.77s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#59 Claude Opus 4.8

none

Kosten: $0.053
Zeit: 22.0s
Token: 2,253 tok

#67 Laguna XS 2.1

medium

Kosten: $0.001
Zeit: 30.6s
Token: 4,678 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
Laguna XS 2.1	4.8	10.0	25.0%	0		41.96s	774	353	73,090

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	5.5	10.0	33.3%	0		3.29s	10,590	1,332	0
Laguna XS 2.1	5.5	10.0	33.3%	0		70.35s	7,995	23,767	83,258

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	29,658	3,259	0
Laguna XS 2.1	9.6	10.0	100.0%	0		13.43s	18,033	507	5,908

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
Laguna XS 2.1	10.0	10.0	100.0%	0		4.50s	7,734	234	3,129

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	5.3	7.2	44.4%	1		1.70s	975	61	0
Laguna XS 2.1	2.9	7.2	11.1%	1		65.66s	834	17	91,533

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
Laguna XS 2.1	5.0	10.0	0.0%	0		4.15s	537	119	1,375

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
Laguna XS 2.1	9.8	10.0	100.0%	0		2.57s	753	82	1,844

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
Laguna XS 2.1	5.3	10.0	33.3%	0		3.43s	771	357	3,355

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
Laguna XS 2.1	10.0	10.0	100.0%	0		3.01s	7,638	309	748

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
Laguna XS 2.1	3.0	10.0	0.0%	0		10.88s	255	16	4,437

Schnellvergleich

Vergleichspaar wechseln

Laguna XS 2.1mediumKostenlos verfügbarvsStep 3.7 Flashhigh Claude Opus 4.8nonevsGemma 4 26B A4BmediumKostenlos verfügbar Gemini 3.5 FlashnonevsLaguna XS 2.1mediumKostenlos verfügbar Laguna XS 2.1mediumKostenlos verfügbarvsGLM 5.2none Laguna XS 2.1mediumKostenlos verfügbarvsQwen3.7 Plusnone Claude Opus 4.8nonevsGrok 4.20medium DeepSeek V4 PrononevsLaguna XS 2.1mediumKostenlos verfügbar Claude Opus 4.8nonevsStep 3.7 Flashhigh Claude Opus 4.8nonevsGLM 5.1medium Gemini 3 Flash PreviewnonevsLaguna XS 2.1mediumKostenlos verfügbar Claude Opus 4.8nonevsGemini 3 Flash Previewlow Claude Opus 4.8nonevsMiMo-V2.5-Promedium