AI BENCHY Compare

Google: Gemini 3.5 Flash vs Poolside: Laguna XS 2.1

Zusammenfassung

Gemini 3.5 Flash vs Laguna XS 2.1 Benchmark-Vergleich: Laguna XS 2.1 führt beim Durchschnittsscore mit 7.0 vs 7.0. Laguna XS 2.1 hat die niedrigeren Benchmark-Kosten mit $0.036 vs $1.079. Gemini 3.5 Flash ist schneller mit 9.93s vs 30.08s, mit Erfolgsraten von 77.8% vs 44.4%.

Empfohlenes Modell: Gemini 3.5 Flash - Die Punktzahl bleibt nah an der besten hier (7.0 vs 7.0) und es antwortet etwa 3.0x schneller als Laguna XS 2.1.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-02

Metrik	Gemini 3.5 Flash Gemini 3.5 Flash none Veröffentlichung: 2026-05-19	Laguna XS 2.1 Laguna XS 2.1 medium Veröffentlichung: 2026-07-02 Kostenlos verfügbar

Metrik	Gemini 3.5 Flash Gemini 3.5 Flash none Veröffentlichung: 2026-05-19	Laguna XS 2.1 Laguna XS 2.1 medium Veröffentlichung: 2026-07-02 Kostenlos verfügbar
Punktzahl	7.0	7.0
Rang	#69	#67
Zuverlässigkeit	10.0	10.0
Konsistenz	8.9	9.6
Korrekte Tests
Erfolgsquote pro Versuch	77.8%	44.4%
Instabile Tests	3	1
Gesamtläufe	63	63
Kosten pro Ergebnis	7.190	0.392
Gesamtkosten	$1.079	$0.036
Eingabepreis	$1.500 / 1M	$0.060 / 1M
Ausgabepreis	$9.000 / 1M	$0.120 / 1M
Gesamte Eingabe-Token	13,843	45,324
Ausgabe-Token	117,518	25,761
Denk-Token	0	268,677
Antwortzeit (Durchschnitt)	9.93s	30.08s
Antwortzeit (Maximum)	64.36s	155.23s
Antwortzeit (Gesamt)	178.68s	631.77s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#69 Gemini 3.5 Flash

none

Kosten: $0.225
Zeit: 125.5s
Token: 25,004 tok

#67 Laguna XS 2.1

medium

Kosten: $0.001
Zeit: 30.6s
Token: 4,678 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.53s	492	5,101	0
Laguna XS 2.1	4.8	10.0	25.0%	0		41.96s	774	353	73,090

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	8.8	7.8	88.9%	1		34.69s	8,122	75,927	0
Laguna XS 2.1	5.5	10.0	33.3%	0		70.35s	7,995	23,767	83,258

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	3.0	10.0	0.0%	0		0ms	0	0	0
Laguna XS 2.1	9.6	10.0	100.0%	0		13.43s	18,033	507	5,908

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	6.5	10.0	50.0%	0		8.10s	2,781	5,895	0
Laguna XS 2.1	10.0	10.0	100.0%	0		4.50s	7,734	234	3,129

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	7.6	7.2	77.8%	1		10.64s	633	17,910	0
Laguna XS 2.1	2.9	7.2	11.1%	1		65.66s	834	17	91,533

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.46s	486	1,620	0
Laguna XS 2.1	5.0	10.0	0.0%	0		4.15s	537	119	1,375

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	9.8	10.0	100.0%	0		3.38s	615	3,928	0
Laguna XS 2.1	9.8	10.0	100.0%	0		2.57s	753	82	1,844

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.13s	558	4,640	0
Laguna XS 2.1	5.3	10.0	33.3%	0		3.43s	771	357	3,355

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	3.0	10.0	0.0%	0		0ms	0	0	0
Laguna XS 2.1	10.0	10.0	100.0%	0		3.01s	7,638	309	748

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	2.8	1.6	33.3%	1		4.87s	156	2,497	0
Laguna XS 2.1	3.0	10.0	0.0%	0		10.88s	255	16	4,437

Schnellvergleich

Vergleichspaar wechseln

Gemini 3.5 FlashnonevsKimi K2.7 Codemedium Laguna XS 2.1mediumKostenlos verfügbarvsStep 3.7 Flashhigh Laguna XS 2.1mediumKostenlos verfügbarvsGLM 5.2none Gemini 3.5 FlashnonevsGLM 5.1medium Gemini 3.5 FlashnonevsStep 3.7 Flashhigh Laguna XS 2.1mediumKostenlos verfügbarvsQwen3.7 Plusnone DeepSeek V4 PrononevsLaguna XS 2.1mediumKostenlos verfügbar Gemini 3 Flash PreviewnonevsLaguna XS 2.1mediumKostenlos verfügbar Gemini 3.5 FlashnonevsQwen3.5-Flashmedium Claude Opus 4.8nonevsLaguna XS 2.1mediumKostenlos verfügbar Laguna XS 2.1mediumKostenlos verfügbarvsQwen3.7 Maxnone Gemini 3.5 FlashnonevsRing-2.6-1Tmedium