Qwen3.7 Plus vs Step 3.7 Flash (high)

Rang: #79
Gesamte Ausgabe-Token: 58,097
Antwortzeit (Durchschnitt): 12.09s
Gesamtkosten: $0.106

Rang: #94
Gesamte Ausgabe-Token: 1,032,395
Antwortzeit (Durchschnitt): 64.68s
Gesamtkosten: $1.207

Empfohlenes Modell Qwen3.7 Plus

Es hat hier die beste Punktzahl (7.2) und kostet etwa 11.4x weniger als Step 3.7 Flash (high).

Detaillierter Vergleich

Metrik	Qwen3.7 Plus Qwen3.7 Plus none Veröffentlichung: 2026-06-03	Step 3.7 Flash Step 3.7 Flash high Veröffentlichung: 2026-05-29

Metrik	Qwen3.7 Plus Qwen3.7 Plus none Veröffentlichung: 2026-06-03	Step 3.7 Flash Step 3.7 Flash high Veröffentlichung: 2026-05-29
Punktzahl	7.2	6.9
Rang	#79	#94
Zuverlässigkeit	10.0	10.0
Konsistenz	10.0	8.0
Korrekte Tests
Erfolgsquote pro Versuch	50.0%	63.6%
Instabile Tests	0	5
Gesamtläufe	66	66
Kosten pro Ergebnis	1.014	10.973
Gesamtkosten	$0.106	$1.207
Eingabepreis	$0.320 / 1M	$0.200 / 1M
Ausgabepreis	$1.280 / 1M	$1.150 / 1M
Gesamte Eingabe-Token	98,824	98,691
Ausgabe-Token	58,097	1,032,395
Denk-Token	0	0
Antwortzeit (Durchschnitt)	12.09s	64.68s
Antwortzeit (Maximum)	206.03s	364.99s
Antwortzeit (Gesamt)	265.89s	1423.01s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#79 Qwen3.7 Plus

none

Kosten: $0.019
Zeit: 213.5s
Token: 11,960 tok

#94 Step 3.7 Flash

high

Kosten: $0.007
Zeit: 63.6s
Token: 6,030 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Kategorie:

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Plus	6.5	10.0	50.0%	0		1.38s	696	349	0
Step 3.7 Flash	10.0	10.0	100.0%	0		13.40s	696	42,656	0

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Plus	5.5	10.0	33.3%	0		2.15s	7,911	639	0
Step 3.7 Flash	4.0	6.0	22.2%	1		206.21s	6,057	327,340	0

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Plus	10.0	10.0	100.0%	0		117.70s	71,266	56,024	0
Step 3.7 Flash	8.7	6.9	83.3%	1		41.23s	73,938	49,842	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Plus	10.0	10.0	100.0%	0		1.43s	7,794	243	0
Step 3.7 Flash	10.0	10.0	100.0%	0		14.72s	7,368	23,113	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Plus	3.0	10.0	0.0%	0		868ms	789	18	0
Step 3.7 Flash	4.1	4.4	44.5%	2		149.64s	783	410,502	0

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Plus	5.3	10.0	0.0%	0		1.33s	522	78	0
Step 3.7 Flash	5.5	10.0	0.0%	0		4.17s	510	2,862	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Plus	6.3	10.0	50.0%	0		929ms	711	72	0
Step 3.7 Flash	9.8	10.0	100.0%	0		1.52s	705	2,010	0

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Plus	7.7	10.0	66.7%	0		1.71s	714	443	0
Step 3.7 Flash	5.3	7.2	44.4%	1		10.22s	711	25,422	0

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Plus	10.0	10.0	100.0%	0		3.54s	8,211	222	0
Step 3.7 Flash	10.0	10.0	100.0%	0		2.79s	7,701	1,172	0

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Plus	3.0	10.0	0.0%	0		1.21s	210	9	0
Step 3.7 Flash	3.0	10.0	0.0%	0		149.34s	222	147,476	0

Schnellvergleich

Vergleichspaar wechseln

GPT-5.5nonevsStep 3.7 Flashhigh Qwen3.6 FlashmediumvsStep 3.7 Flashhigh Qwen3.7 PlusnonevsGrok 4.3medium Step 3.7 FlashhighvsMiMo-V2.5-Promedium Qwen3.7 PlusnonevsGLM 5.1medium Gemini 3.5 FlashminimalvsStep 3.7 Flashhigh GPT-5.6 SolnonevsStep 3.7 Flashhigh Qwen3.7 PlusnonevsGrok 4.20medium DeepSeek V4 PrononevsStep 3.7 Flashhigh KAT-Coder-Pro V2.5highvsQwen3.7 Plusnone KAT-Coder-Pro V2.5mediumvsStep 3.7 Flashhigh Kimi K2.6mediumvsQwen3.7 Plusnone