Qwen3.7 Max vs Step 3.7 Flash (high)

Rang: #67
Gesamte Ausgabe-Token: 12,446
Antwortzeit (Durchschnitt): 4.52s
Gesamtkosten: $0.197

Rang: #94
Gesamte Ausgabe-Token: 1,032,395
Antwortzeit (Durchschnitt): 64.68s
Gesamtkosten: $1.207

Empfohlenes Modell Qwen3.7 Max

Es hat hier die beste Punktzahl (7.4) und kostet etwa 6.1x weniger als Step 3.7 Flash (high).

Detaillierter Vergleich

Metrik	Qwen3.7 Max Qwen3.7 Max none Veröffentlichung: 2026-05-22	Step 3.7 Flash Step 3.7 Flash high Veröffentlichung: 2026-05-29

Metrik	Qwen3.7 Max Qwen3.7 Max none Veröffentlichung: 2026-05-22	Step 3.7 Flash Step 3.7 Flash high Veröffentlichung: 2026-05-29
Punktzahl	7.4	6.9
Rang	#67	#94
Zuverlässigkeit	9.9	10.0
Konsistenz	10.0	8.0
Korrekte Tests
Erfolgsquote pro Versuch	68.2%	63.6%
Instabile Tests	0	5
Gesamtläufe	66	66
Kosten pro Ergebnis	1.582	10.973
Gesamtkosten	$0.197	$1.207
Eingabepreis	$1.475 / 1M	$0.200 / 1M
Ausgabepreis	$4.425 / 1M	$1.150 / 1M
Gesamte Eingabe-Token	95,983	98,691
Ausgabe-Token	12,446	1,032,395
Denk-Token	0	0
Antwortzeit (Durchschnitt)	4.52s	64.68s
Antwortzeit (Maximum)	72.30s	364.99s
Antwortzeit (Gesamt)	99.52s	1423.01s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#67 Qwen3.7 Max

none

Kosten: $0.046
Zeit: 195.0s
Token: 12,171 tok

#94 Step 3.7 Flash

high

Kosten: $0.007
Zeit: 63.6s
Token: 6,030 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Kategorie:

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Max	6.5	10.0	50.0%	0		1.08s	696	242	0
Step 3.7 Flash	10.0	10.0	100.0%	0		13.40s	696	42,656	0

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Max	5.5	10.0	33.3%	0		1.35s	7,911	582	0
Step 3.7 Flash	4.0	6.0	22.2%	1		206.21s	6,057	327,340	0

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Max	6.5	10.0	50.0%	0		37.23s	68,425	10,623	0
Step 3.7 Flash	8.7	6.9	83.3%	1		41.23s	73,938	49,842	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Max	10.0	10.0	100.0%	0		1.35s	7,794	243	0
Step 3.7 Flash	10.0	10.0	100.0%	0		14.72s	7,368	23,113	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Max	7.7	10.0	66.7%	0		975ms	789	15	0
Step 3.7 Flash	4.1	4.4	44.5%	2		149.64s	783	410,502	0

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Max	10.0	10.0	100.0%	0		1.04s	522	120	0
Step 3.7 Flash	5.5	10.0	0.0%	0		4.17s	510	2,862	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Max	10.0	10.0	100.0%	0		943ms	711	72	0
Step 3.7 Flash	9.8	10.0	100.0%	0		1.52s	705	2,010	0

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Max	10.0	10.0	100.0%	0		1.13s	714	314	0
Step 3.7 Flash	5.3	7.2	44.4%	1		10.22s	711	25,422	0

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Max	10.0	10.0	100.0%	0		3.92s	8,211	222	0
Step 3.7 Flash	10.0	10.0	100.0%	0		2.79s	7,701	1,172	0

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Max	3.0	10.0	0.0%	0		856ms	210	13	0
Step 3.7 Flash	3.0	10.0	0.0%	0		149.34s	222	147,476	0

Schnellvergleich

Vergleichspaar wechseln

GPT-5.5nonevsStep 3.7 Flashhigh Qwen3.6 FlashmediumvsStep 3.7 Flashhigh LongCat 2.0mediumvsQwen3.7 Maxnone Step 3.7 FlashhighvsMiMo-V2.5-Promedium Gemini 3.5 FlashminimalvsStep 3.7 Flashhigh GPT-5.6 SolnonevsStep 3.7 Flashhigh GPT-5.4 MinimediumvsQwen3.7 Maxnone GPT-5.6 TerralowvsQwen3.7 Maxnone DeepSeek V4 PrononevsStep 3.7 Flashhigh Gemini 3 Flash PreviewlowvsQwen3.7 Maxnone KAT-Coder-Pro V2.5lowvsQwen3.7 Maxnone KAT-Coder-Pro V2.5mediumvsStep 3.7 Flashhigh