AI BENCHY Compare

Poolside: Laguna XS 2.1 vs Qwen: Qwen3.6 Flash

Zusammenfassung

Laguna XS 2.1 vs Qwen3.6 Flash Benchmark-Vergleich: Qwen3.6 Flash führt beim Durchschnittsscore mit 6.0 vs 5.3. Laguna XS 2.1 hat die niedrigeren Benchmark-Kosten mit $0.003 vs $0.015. Laguna XS 2.1 ist schneller mit 722ms vs 1.60s, mit Erfolgsraten von 31.8% vs 33.3%.

Empfohlenes Modell: Qwen3.6 Flash - Es hat die stärkste Punktzahl in diesem Vergleich (6.0) und die beste Gesamtbalance aus Kosten und Antwortzeit über alle 2 Modelle.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-02

Metrik	Laguna XS 2.1 Laguna XS 2.1 none Veröffentlichung: 2026-07-02 Kostenlos verfügbar	Qwen3.6 Flash Qwen3.6 Flash none Veröffentlichung: 2026-04-20

Metrik	Laguna XS 2.1 Laguna XS 2.1 none Veröffentlichung: 2026-07-02 Kostenlos verfügbar	Qwen3.6 Flash Qwen3.6 Flash none Veröffentlichung: 2026-04-20
Punktzahl	5.3	6.0
Rang	#128	#105
Zuverlässigkeit	10.0	10.0
Konsistenz	9.0	10.0
Korrekte Tests
Erfolgsquote pro Versuch	31.8%	33.3%
Instabile Tests	3	0
Gesamtläufe	63	63
Kosten pro Ergebnis	0.058	0.266
Gesamtkosten	$0.003	$0.015
Eingabepreis	$0.060 / 1M	$0.188 / 1M
Ausgabepreis	$0.120 / 1M	$1.125 / 1M
Gesamte Eingabe-Token	41,148	50,810
Ausgabe-Token	3,451	4,164
Denk-Token	0	0
Antwortzeit (Durchschnitt)	722ms	1.60s
Antwortzeit (Maximum)	2.30s	4.60s
Antwortzeit (Gesamt)	15.17s	33.59s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#128 Laguna XS 2.1

none

Kosten: $0.001
Zeit: 27.6s
Token: 4,344 tok

#105 Qwen3.6 Flash

none

Kosten: $0.005
Zeit: 20.1s
Token: 4,211 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	5.3	8.3	33.3%	1		755ms	774	1,015	0
Qwen3.6 Flash	3.1	10.0	0.0%	0		1.63s	696	1,554	0

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	4.3	7.8	22.2%	1		623ms	7,995	562	0
Qwen3.6 Flash	5.4	10.0	33.3%	0		1.79s	6,488	889	0

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	3.0	10.0	0.0%	0		1.76s	14,197	402	0
Qwen3.6 Flash	3.0	10.0	0.0%	0		4.22s	24,675	315	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	10.0	10.0	100.0%	0		768ms	7,734	240	0
Qwen3.6 Flash	10.0	10.0	100.0%	0		2.13s	7,794	243	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	5.3	10.0	33.3%	0		364ms	834	14	0
Qwen3.6 Flash	5.3	10.0	33.3%	0		1.11s	789	15	0

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	5.0	10.0	0.0%	0		529ms	537	128	0
Qwen3.6 Flash	10.0	10.0	100.0%	0		947ms	522	132	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	3.8	5.8	33.3%	1		364ms	638	50	0
Qwen3.6 Flash	6.3	10.0	50.0%	0		1.10s	711	66	0

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	3.0	10.0	0.0%	0		1.01s	771	730	0
Qwen3.6 Flash	3.5	10.0	0.0%	0		1.21s	714	669	0

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	10.0	10.0	100.0%	0		1.36s	7,413	300	0
Qwen3.6 Flash	10.0	10.0	100.0%	0		2.49s	8,211	272	0

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	3.0	10.0	0.0%	0		254ms	255	10	0
Qwen3.6 Flash	3.0	10.0	0.0%	0		649ms	210	9	0

Schnellvergleich

Vergleichspaar wechseln

North Mini CodemediumKostenlos verfügbarvsQwen3.6 Flashnone MiniMax M2.7mediumvsLaguna XS 2.1noneKostenlos verfügbar Gemini 3.1 Flash LiteminimalvsQwen3.6 Flashnone Mistral Small 4mediumvsLaguna XS 2.1noneKostenlos verfügbar Gemma 4 31BmediumKostenlos verfügbarvsQwen3.6 Flashnone Nemotron 3 SupermediumKostenlos verfügbarvsQwen3.6 Flashnone CobuddymediumvsLaguna XS 2.1noneKostenlos verfügbar Gemini 3.1 Flash LitelowvsQwen3.6 Flashnone North Mini CodemediumKostenlos verfügbarvsLaguna XS 2.1noneKostenlos verfügbar Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 Flashnone MiniMax M2.5mediumvsLaguna XS 2.1noneKostenlos verfügbar Laguna XS 2.1noneKostenlos verfügbarvsQwen3 Coder Nextmedium