AI BENCHY Compare

Qwen: Qwen3.6 Max Preview vs StepFun: Step 3.5 Flash

Zusammenfassung

Qwen3.6 Max Preview vs Step 3.5 Flash Benchmark-Vergleich: Step 3.5 Flash führt beim Durchschnittsscore mit 6.6 vs 6.0. Step 3.5 Flash hat die niedrigeren Benchmark-Kosten mit $0.070 vs $0.075. Qwen3.6 Max Preview ist schneller mit 3.30s vs 72.53s, mit Erfolgsraten von 58.7% vs 54.0%.

Empfohlenes Modell: Qwen3.6 Max Preview - Die Punktzahl bleibt nah an der besten hier (6.0 vs 6.6) und es antwortet etwa 21.9x schneller als Step 3.5 Flash.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-18

Metrik	Qwen3.6 Max Preview Qwen3.6 Max Preview none Veröffentlichung: 2026-04-20	Step 3.5 Flash Step 3.5 Flash medium Veröffentlichung: 2026-02-01

Metrik	Qwen3.6 Max Preview Qwen3.6 Max Preview none Veröffentlichung: 2026-04-20	Step 3.5 Flash Step 3.5 Flash medium Veröffentlichung: 2026-02-01
Punktzahl	6.0	6.6
Rang	#100	#80
Zuverlässigkeit	10.0	10.0
Konsistenz	9.2	8.9
Korrekte Tests
Erfolgsquote pro Versuch	58.7%	54.0%
Instabile Tests	2	1
Gesamtläufe	63	60
Kosten pro Ergebnis	0.824	0.198
Gesamtkosten	$0.075	$0.070
Eingabepreis	$1.040 / 1M	$0.090 / 1M
Ausgabepreis	$6.240 / 1M	$0.300 / 1M
Gesamte Eingabe-Token	42,509	34,431
Ausgabe-Token	4,779	91,587
Denk-Token	0	195,973
Antwortzeit (Durchschnitt)	3.30s	72.53s
Antwortzeit (Maximum)	20.51s	453.94s
Antwortzeit (Gesamt)	69.40s	1015.47s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#100 Qwen3.6 Max Preview

none

Kosten: $0.025
Zeit: 83.9s
Token: 4,066 tok

#80 Step 3.5 Flash

medium

Kosten: $0.008
Zeit: 277.1s
Token: 23,695 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 Max Preview	5.2	7.9	41.7%	1		2.63s	696	513	0
Step 3.5 Flash	10.0	10.0	100.0%	0		40.57s	694	20,391	24,176

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 Max Preview	3.8	7.3	22.2%	1		3.12s	7,913	456	0
Step 3.5 Flash	2.4	5.2	0.0%	0		258.38s	2,211	13,207	22,429

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		20.51s	14,949	2,842	0
Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	13,638	1,176	12,984

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.87s	7,794	243	0
Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	7,368	600	13,886

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 Max Preview	7.7	10.0	66.7%	0		1.22s	789	18	0
Step 3.5 Flash	5.3	7.2	44.4%	1		170.45s	673	45,350	90,436

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 Max Preview	4.3	10.0	0.0%	0		1.62s	522	76	0
Step 3.5 Flash	5.5	10.0	0.0%	0		22.39s	509	240	3,506

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 Max Preview	9.8	10.0	100.0%	0		1.40s	711	69	0
Step 3.5 Flash	8.3	10.0	50.0%	0		4.78s	705	2,364	3,521

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.65s	714	321	0
Step 3.5 Flash	5.3	10.0	33.3%	0		7.22s	711	5,630	10,861

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		5.27s	8,211	222	0
Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	7,701	275	3,802

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		1.97s	210	19	0
Step 3.5 Flash	3.0	10.0	0.0%	0		108.45s	221	2,354	10,372

Schnellvergleich

Vergleichspaar wechseln

Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 Flashmedium Gemini 3.1 Flash LiteminimalvsQwen3.6 Max Previewnone North Mini CodemediumKostenlos verfügbarvsQwen3.6 Max Previewnone Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 Flashmedium Gemini 3.1 Flash LitelowvsStep 3.5 Flashmedium Gemini 3.5 FlashminimalvsStep 3.5 Flashmedium Qwen3.7 MaxnonevsStep 3.5 Flashmedium Gemini 3 Flash PreviewnonevsStep 3.5 Flashmedium Gemma 4 31BmediumKostenlos verfügbarvsQwen3.6 Max Previewnone Nemotron 3 SupermediumKostenlos verfügbarvsQwen3.6 Max Previewnone GPT-5.5nonevsStep 3.5 Flashmedium Gemini 3.5 FlashnonevsStep 3.5 Flashmedium