AI BENCHY Compare

Poolside: Laguna XS 2.1 vs xAI: Grok 4.20

Zusammenfassung

Laguna XS 2.1 vs Grok 4.20 Benchmark-Vergleich: Laguna XS 2.1 führt beim Durchschnittsscore mit 5.3 vs 4.4. Laguna XS 2.1 hat die niedrigeren Benchmark-Kosten mit $0.003 vs $0.057. Laguna XS 2.1 ist schneller mit 722ms vs 1.11s, mit Erfolgsraten von 31.8% vs 28.6%.

Empfohlenes Modell: Laguna XS 2.1 - Es hat hier die beste Punktzahl (5.3) und kostet etwa 19.6x weniger als Grok 4.20.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-02

Metrik	Laguna XS 2.1 Laguna XS 2.1 none Veröffentlichung: 2026-07-02 Kostenlos verfügbar	Grok 4.20 Grok 4.20 none Veröffentlichung: 2026-03-31

Metrik	Laguna XS 2.1 Laguna XS 2.1 none Veröffentlichung: 2026-07-02 Kostenlos verfügbar	Grok 4.20 Grok 4.20 none Veröffentlichung: 2026-03-31
Punktzahl	5.3	4.4
Rang	#128	#160
Zuverlässigkeit	10.0	k. A.
Konsistenz	9.0	8.5
Korrekte Tests
Erfolgsquote pro Versuch	31.8%	28.6%
Instabile Tests	3	0
Gesamtläufe	63	54
Kosten pro Ergebnis	0.058	1.570
Gesamtkosten	$0.003	$0.057
Eingabepreis	$0.060 / 1M	$1.250 / 1M
Ausgabepreis	$0.120 / 1M	$2.500 / 1M
Gesamte Eingabe-Token	41,148	41,313
Ausgabe-Token	3,451	1,923
Denk-Token	0	0
Antwortzeit (Durchschnitt)	722ms	1.11s
Antwortzeit (Maximum)	2.30s	6.04s
Antwortzeit (Gesamt)	15.17s	19.96s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#128 Laguna XS 2.1

none

Kosten: $0.001
Zeit: 27.6s
Token: 4,344 tok

#160 xAI: Grok 4.20

none

Kosten: $0.004
Zeit: 6.5s
Token: 1,367 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	5.3	8.3	33.3%	1		755ms	774	1,015	0
Grok 4.20	4.8	10.0	25.0%	0		501ms	1,986	267	0

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	4.3	7.8	22.2%	1		623ms	7,995	562	0
Grok 4.20	1.1	3.1	0.0%	0		1.22s	1,074	312	0

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	3.0	10.0	0.0%	0		1.76s	14,197	402	0
Grok 4.20	3.0	10.0	0.0%	0		6.04s	17,673	282	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	10.0	10.0	100.0%	0		768ms	7,734	240	0
Grok 4.20	10.0	10.0	100.0%	0		522ms	7,749	207	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	5.3	10.0	33.3%	0		364ms	834	14	0
Grok 4.20	3.0	10.0	0.0%	0		687ms	1,746	325	0

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	5.0	10.0	0.0%	0		529ms	537	128	0
Grok 4.20	4.8	10.0	0.0%	0		659ms	819	83	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	3.8	5.8	33.3%	1		364ms	638	50	0
Grok 4.20	6.3	10.0	50.0%	0		445ms	1,350	60	0

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	3.0	10.0	0.0%	0		1.01s	771	730	0
Grok 4.20	5.3	10.0	33.3%	0		473ms	1,671	198	0

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	10.0	10.0	100.0%	0		1.36s	7,413	300	0
Grok 4.20	10.0	10.0	100.0%	0		4.63s	7,245	189	0

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	3.0	10.0	0.0%	0		254ms	255	10	0
Grok 4.20	0.0	0.0	0.0%	0		0ms	0	0	0

Schnellvergleich

Vergleichspaar wechseln

Grok 4.20nonevsGLM 4.7 Flashmedium MiniMax M2.7mediumvsLaguna XS 2.1noneKostenlos verfügbar Mistral Small 4mediumvsLaguna XS 2.1noneKostenlos verfügbar Qwen3 Coder NextmediumvsGrok 4.20none MiniMax M2.5mediumvsGrok 4.20none CobuddymediumvsLaguna XS 2.1noneKostenlos verfügbar North Mini CodemediumKostenlos verfügbarvsLaguna XS 2.1noneKostenlos verfügbar CobuddymediumvsGrok 4.20none Qwen3.5-9BmediumvsGrok 4.20none MiniMax M2.5mediumvsLaguna XS 2.1noneKostenlos verfügbar Laguna XS 2.1noneKostenlos verfügbarvsQwen3 Coder Nextmedium Mistral Small 4mediumvsGrok 4.20none