Step 3.7 Flash (low) vs Grok Build 0.1 (medium)

Empfohlenes Modell Step 3.7 Flash (low)

Die Punktzahl bleibt nah an der besten hier (7.3 vs 7.6) und es kostet etwa 2.4x weniger als Grok Build 0.1 (medium).

Detaillierter Vergleich

Metrik	Step 3.7 Flash Step 3.7 Flash low Veröffentlichung: 2026-05-29	Grok Build 0.1 Grok Build 0.1 medium Veröffentlichung: 2026-05-21

Metrik	Step 3.7 Flash Step 3.7 Flash low Veröffentlichung: 2026-05-29	Grok Build 0.1 Grok Build 0.1 medium Veröffentlichung: 2026-05-21
Punktzahl	7.3	7.6
Rang	#77	#56
Zuverlässigkeit	10.0	10.0
Konsistenz	8.1	10.0
Korrekte Tests
Erfolgsquote pro Versuch	68.2%	63.6%
Instabile Tests	5	0
Gesamtläufe	66	66
Kosten pro Ergebnis	3.782	7.830
Gesamtkosten	$0.454	$1.097
Eingabepreis	$0.200 / 1M	$1.000 / 1M
Ausgabepreis	$1.150 / 1M	$2.000 / 1M
Gesamte Eingabe-Token	103,833	106,751
Ausgabe-Token	376,581	7,993
Denk-Token	0	486,670
Antwortzeit (Durchschnitt)	20.68s	52.06s
Antwortzeit (Maximum)	124.75s	252.69s
Antwortzeit (Gesamt)	455.01s	1145.27s

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

low

Ungültiges SVG

medium

Kategorie:

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Step 3.7 Flash	8.7	7.9	91.7%	1		4.02s	756	10,896	0
Grok Build 0.1	8.3	10.0	75.0%	0		7.43s	2,010	220	12,162

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Step 3.7 Flash	8.2	7.2	88.9%	1		9.46s	7,437	18,685	0
Grok Build 0.1	5.7	9.7	33.3%	0		108.46s	8,304	1,138	161,452

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Step 3.7 Flash	7.3	5.8	83.3%	1		66.18s	77,415	93,682	0
Grok Build 0.1	10.0	10.0	100.0%	0		65.08s	75,242	5,442	65,569

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Step 3.7 Flash	7.3	5.8	83.3%	1		2.29s	7,398	2,667	0
Grok Build 0.1	10.0	10.0	100.0%	0		10.72s	7,761	180	8,876

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Step 3.7 Flash	5.3	7.2	44.4%	1		43.31s	828	104,487	0
Grok Build 0.1	5.3	10.0	33.3%	0		158.00s	1,764	492	175,294

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Step 3.7 Flash	3.4	9.3	0.0%	0		7.00s	525	4,604	0
Grok Build 0.1	4.4	9.9	0.0%	0		18.41s	825	76	6,345

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Step 3.7 Flash	9.8	10.0	100.0%	0		1.58s	735	1,857	0
Grok Build 0.1	9.8	10.0	100.0%	0		12.36s	1,362	57	9,599

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Step 3.7 Flash	5.5	9.9	33.3%	0		1.84s	756	3,564	0
Grok Build 0.1	7.7	10.0	66.7%	0		18.26s	1,689	195	20,841

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Step 3.7 Flash	10.0	10.0	100.0%	0		3.25s	7,746	1,360	0
Grok Build 0.1	10.0	10.0	100.0%	0		13.12s	7,263	180	4,969

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Step 3.7 Flash	3.0	10.0	0.0%	0		124.75s	237	134,779	0
Grok Build 0.1	3.0	10.0	0.0%	0		53.51s	531	13	21,563

Vergleichspaar wechseln