Qwen3.6 35B A3B (medium) vs Step 3.7 Flash (high)

Empfohlenes Modell Qwen3.6 35B A3B (medium)

Die Punktzahl bleibt nah an der besten hier (6.7 vs 6.9) und es kostet etwa 1.6x weniger als Step 3.7 Flash (high).

Detaillierter Vergleich

Metrik	Qwen3.6 35B A3B Qwen3.6 35B A3B medium Veröffentlichung: 2026-04-20	Step 3.7 Flash Step 3.7 Flash high Veröffentlichung: 2026-05-29

Metrik	Qwen3.6 35B A3B Qwen3.6 35B A3B medium Veröffentlichung: 2026-04-20	Step 3.7 Flash Step 3.7 Flash high Veröffentlichung: 2026-05-29
Punktzahl	6.7	6.9
Rang	#98	#94
Zuverlässigkeit	10.0	10.0
Konsistenz	9.6	8.0
Korrekte Tests
Erfolgsquote pro Versuch	60.6%	63.6%
Instabile Tests	1	5
Gesamtläufe	66	66
Kosten pro Ergebnis	5.712	10.973
Gesamtkosten	$0.746	$1.207
Eingabepreis	$0.140 / 1M	$0.200 / 1M
Ausgabepreis	$1.000 / 1M	$1.150 / 1M
Gesamte Eingabe-Token	85,139	98,691
Ausgabe-Token	61,819	1,032,395
Denk-Token	678,766	0
Antwortzeit (Durchschnitt)	58.06s	64.68s
Antwortzeit (Maximum)	817.57s	364.99s
Antwortzeit (Gesamt)	1161.18s	1423.01s

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

medium

Ungültiges SVG

high

Kategorie:

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		6.02s	672	1,154	12,385
Step 3.7 Flash	10.0	10.0	100.0%	0		13.40s	696	42,656	0

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 35B A3B	7.7	10.0	66.7%	0		50.55s	5,051	7,929	37,223
Step 3.7 Flash	4.0	6.0	22.2%	1		206.21s	6,057	327,340	0

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 35B A3B	3.0	10.0	0.0%	0		817.57s	68,754	42,187	548,547
Step 3.7 Flash	8.7	6.9	83.3%	1		41.23s	73,938	49,842	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		12.99s	7,776	2,591	9,968
Step 3.7 Flash	10.0	10.0	100.0%	0		14.72s	7,368	23,113	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 35B A3B	5.3	7.2	44.4%	1		22.50s	771	6,193	39,116
Step 3.7 Flash	4.1	4.4	44.5%	2		149.64s	783	410,502	0

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 35B A3B	4.4	9.9	0.0%	0		8.66s	516	129	4,569
Step 3.7 Flash	5.5	10.0	0.0%	0		4.17s	510	2,862	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		7.50s	699	219	7,404
Step 3.7 Flash	9.8	10.0	100.0%	0		1.52s	705	2,010	0

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 35B A3B	8.0	10.0	66.7%	0		5.95s	696	655	9,228
Step 3.7 Flash	5.3	7.2	44.4%	1		10.22s	711	25,422	0

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 35B A3B	3.0	10.0	0.0%	0		0ms	0	0	0
Step 3.7 Flash	10.0	10.0	100.0%	0		2.79s	7,701	1,172	0

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 35B A3B	3.0	10.0	0.0%	0		32.90s	204	762	10,326
Step 3.7 Flash	3.0	10.0	0.0%	0		149.34s	222	147,476	0

Vergleichspaar wechseln