AI BENCHY Compare

Poolside: Laguna XS 2.1 vs StepFun: Step 3.7 Flash

Zusammenfassung

Laguna XS 2.1 vs Step 3.7 Flash Benchmark-Vergleich: Der Durchschnittsscore ist mit 7.0 vs 7.1 praktisch gleichauf. Laguna XS 2.1 hat die niedrigeren Benchmark-Kosten mit $0.036 vs $1.148. Laguna XS 2.1 ist schneller mit 30.08s vs 64.46s, mit Erfolgsraten von 44.4% vs 63.5%.

Empfohlenes Modell: Laguna XS 2.1 - Es hat hier die beste Punktzahl (7.0) und kostet etwa 32.6x weniger als Step 3.7 Flash.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-02

Metrik	Laguna XS 2.1 Laguna XS 2.1 medium Veröffentlichung: 2026-07-02 Kostenlos verfügbar	Step 3.7 Flash Step 3.7 Flash high Veröffentlichung: 2026-05-29

Metrik	Laguna XS 2.1 Laguna XS 2.1 medium Veröffentlichung: 2026-07-02 Kostenlos verfügbar	Step 3.7 Flash Step 3.7 Flash high Veröffentlichung: 2026-05-29
Punktzahl	7.0	7.1
Rang	#67	#65
Zuverlässigkeit	10.0	10.0
Konsistenz	9.6	8.2
Korrekte Tests
Erfolgsquote pro Versuch	44.4%	63.5%
Instabile Tests	1	4
Gesamtläufe	63	63
Kosten pro Ergebnis	0.392	10.434
Gesamtkosten	$0.036	$1.148
Eingabepreis	$0.060 / 1M	$0.200 / 1M
Ausgabepreis	$0.120 / 1M	$1.150 / 1M
Gesamte Eingabe-Token	45,324	38,391
Ausgabe-Token	25,761	991,355
Denk-Token	268,677	0
Antwortzeit (Durchschnitt)	30.08s	64.46s
Antwortzeit (Maximum)	155.23s	364.99s
Antwortzeit (Gesamt)	631.77s	1353.57s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#67 Laguna XS 2.1

medium

Kosten: $0.001
Zeit: 30.6s
Token: 4,678 tok

#65 Step 3.7 Flash

high

Kosten: $0.007
Zeit: 63.6s
Token: 6,030 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	4.8	10.0	25.0%	0		41.96s	774	353	73,090
Step 3.7 Flash	10.0	10.0	100.0%	0		13.40s	696	42,656	0

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	5.5	10.0	33.3%	0		70.35s	7,995	23,767	83,258
Step 3.7 Flash	4.0	6.0	22.2%	1		206.21s	6,057	327,340	0

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	9.6	10.0	100.0%	0		13.43s	18,033	507	5,908
Step 3.7 Flash	10.0	10.0	100.0%	0		13.01s	13,638	8,802	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	10.0	10.0	100.0%	0		4.50s	7,734	234	3,129
Step 3.7 Flash	10.0	10.0	100.0%	0		14.72s	7,368	23,113	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	2.9	7.2	11.1%	1		65.66s	834	17	91,533
Step 3.7 Flash	4.1	4.4	44.5%	2		149.64s	783	410,502	0

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	5.0	10.0	0.0%	0		4.15s	537	119	1,375
Step 3.7 Flash	5.5	10.0	0.0%	0		4.17s	510	2,862	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	9.8	10.0	100.0%	0		2.57s	753	82	1,844
Step 3.7 Flash	9.8	10.0	100.0%	0		1.52s	705	2,010	0

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	5.3	10.0	33.3%	0		3.43s	771	357	3,355
Step 3.7 Flash	5.3	7.2	44.4%	1		10.22s	711	25,422	0

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	10.0	10.0	100.0%	0		3.01s	7,638	309	748
Step 3.7 Flash	10.0	10.0	100.0%	0		2.79s	7,701	1,172	0

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Laguna XS 2.1	3.0	10.0	0.0%	0		10.88s	255	16	4,437
Step 3.7 Flash	3.0	10.0	0.0%	0		149.34s	222	147,476	0

Schnellvergleich

Vergleichspaar wechseln

Step 3.7 FlashhighvsGLM 5.1medium Step 3.7 FlashhighvsGLM 5.2none Gemini 3.5 FlashnonevsLaguna XS 2.1mediumKostenlos verfügbar Qwen3.7 PlusnonevsStep 3.7 Flashhigh Kimi K2.7 CodemediumvsStep 3.7 Flashhigh Gemma 4 26B A4BmediumKostenlos verfügbarvsStep 3.7 Flashhigh Laguna XS 2.1mediumKostenlos verfügbarvsGLM 5.2none DeepSeek V4 PrononevsStep 3.7 Flashhigh Gemini 3.5 FlashnonevsStep 3.7 Flashhigh Laguna XS 2.1mediumKostenlos verfügbarvsQwen3.7 Plusnone DeepSeek V4 PrononevsLaguna XS 2.1mediumKostenlos verfügbar Claude Opus 4.8nonevsStep 3.7 Flashhigh