AI BENCHY Compare

Google: Gemini 3.5 Flash vs Poolside: Laguna XS 2.1

Zusammenfassung

Gemini 3.5 Flash vs Laguna XS 2.1 Benchmark-Vergleich: Gemini 3.5 Flash führt beim Durchschnittsscore mit 9.8 vs 5.3. Laguna XS 2.1 hat die niedrigeren Benchmark-Kosten mit $0.003 vs $1.115. Laguna XS 2.1 ist schneller mit 722ms vs 8.84s, mit Erfolgsraten von 96.8% vs 31.8%.

Empfohlenes Modell: Gemini 3.5 Flash - Es hat die stärkste Punktzahl in diesem Vergleich (9.8) und die beste Gesamtbalance aus Kosten und Antwortzeit über alle 2 Modelle.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-02

Metrik	Gemini 3.5 Flash Gemini 3.5 Flash high Veröffentlichung: 2026-05-19	Laguna XS 2.1 Laguna XS 2.1 none Veröffentlichung: 2026-07-02 Kostenlos verfügbar

Metrik	Gemini 3.5 Flash Gemini 3.5 Flash high Veröffentlichung: 2026-05-19	Laguna XS 2.1 Laguna XS 2.1 none Veröffentlichung: 2026-07-02 Kostenlos verfügbar
Punktzahl	9.8	5.3
Rang	#1	#128
Zuverlässigkeit	10.0	10.0
Konsistenz	9.6	9.0
Korrekte Tests
Erfolgsquote pro Versuch	96.8%	31.8%
Instabile Tests	1	3
Gesamtläufe	63	63
Kosten pro Ergebnis	5.575	0.058
Gesamtkosten	$1.115	$0.003
Eingabepreis	$1.500 / 1M	$0.060 / 1M
Ausgabepreis	$9.000 / 1M	$0.120 / 1M
Gesamte Eingabe-Token	37,594	41,148
Ausgabe-Token	1,975	3,451
Denk-Token	115,638	0
Antwortzeit (Durchschnitt)	8.84s	722ms
Antwortzeit (Maximum)	34.82s	2.30s
Antwortzeit (Gesamt)	185.57s	15.17s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#1 Gemini 3.5 Flash

high

Kosten: $0.208
Zeit: 118.2s
Token: 23,158 tok

#128 Laguna XS 2.1

none

Kosten: $0.001
Zeit: 27.6s
Token: 4,344 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.57s	492	174	4,997
Laguna XS 2.1	5.3	8.3	33.3%	1		755ms	774	1,015	0

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		22.96s	8,118	456	47,129
Laguna XS 2.1	4.3	7.8	22.2%	1		623ms	7,995	562	0

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		22.37s	12,873	351	16,323
Laguna XS 2.1	3.0	10.0	0.0%	0		1.76s	14,197	402	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		6.43s	7,548	279	8,466
Laguna XS 2.1	10.0	10.0	100.0%	0		768ms	7,734	240	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	7.6	7.2	77.8%	1		14.09s	633	12	24,721
Laguna XS 2.1	5.3	10.0	33.3%	0		364ms	834	14	0

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.63s	486	115	1,650
Laguna XS 2.1	5.0	10.0	0.0%	0		529ms	537	128	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.35s	615	70	3,799
Laguna XS 2.1	3.8	5.8	33.3%	1		364ms	638	50	0

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.23s	558	241	4,940
Laguna XS 2.1	3.0	10.0	0.0%	0		1.01s	771	730	0

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	9.8	10.0	100.0%	0		4.96s	6,115	265	1,608
Laguna XS 2.1	10.0	10.0	100.0%	0		1.36s	7,413	300	0

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.94s	156	12	2,005
Laguna XS 2.1	3.0	10.0	0.0%	0		254ms	255	10	0

Schnellvergleich

Vergleichspaar wechseln

MiniMax M2.7mediumvsLaguna XS 2.1noneKostenlos verfügbar Mistral Small 4mediumvsLaguna XS 2.1noneKostenlos verfügbar CobuddymediumvsLaguna XS 2.1noneKostenlos verfügbar Gemini 3.5 FlashhighvsQwen3.7 Maxmedium Gemini 3.5 FlashhighvsGPT-5.5low North Mini CodemediumKostenlos verfügbarvsLaguna XS 2.1noneKostenlos verfügbar MiniMax M2.5mediumvsLaguna XS 2.1noneKostenlos verfügbar Claude Fable 5mediumvsGemini 3.5 Flashhigh Laguna XS 2.1noneKostenlos verfügbarvsQwen3 Coder Nextmedium Gemini 3.1 Flash LiteminimalvsLaguna XS 2.1noneKostenlos verfügbar Gemini 3.5 FlashhighvsGPT-5.5medium Gemini 3.5 FlashhighvsGPT-5.3-Codexmedium