AI BENCHY Compare

Qwen: Qwen3.5 Plus 2026-02-15 vs StepFun: Step 3.5 Flash

Zusammenfassung

Qwen3.5 Plus 2026-02-15 vs Step 3.5 Flash Benchmark-Vergleich: Step 3.5 Flash führt beim Durchschnittsscore mit 6.6 vs 5.8. Qwen3.5 Plus 2026-02-15 hat die niedrigeren Benchmark-Kosten mit $0.016 vs $0.070. Qwen3.5 Plus 2026-02-15 ist schneller mit 2.31s vs 72.53s, mit Erfolgsraten von 46.0% vs 54.0%.

Empfohlenes Modell: Qwen3.5 Plus 2026-02-15 - Die Punktzahl bleibt nah an der besten hier (5.8 vs 6.6) und es kostet etwa 4.4x weniger als Step 3.5 Flash.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-18

Metrik	Qwen3.5 Plus 2026-02-15 Qwen3.5 Plus 2026-02-15 none Veröffentlichung: 2026-02-15	Step 3.5 Flash Step 3.5 Flash medium Veröffentlichung: 2026-02-01

Metrik	Qwen3.5 Plus 2026-02-15 Qwen3.5 Plus 2026-02-15 none Veröffentlichung: 2026-02-15	Step 3.5 Flash Step 3.5 Flash medium Veröffentlichung: 2026-02-01
Punktzahl	5.8	6.6
Rang	#106	#80
Zuverlässigkeit	10.0	10.0
Konsistenz	9.4	8.9
Korrekte Tests
Erfolgsquote pro Versuch	46.0%	54.0%
Instabile Tests	2	1
Gesamtläufe	63	60
Kosten pro Ergebnis	0.204	0.198
Gesamtkosten	$0.016	$0.070
Eingabepreis	$0.260 / 1M	$0.090 / 1M
Ausgabepreis	$1.560 / 1M	$0.300 / 1M
Gesamte Eingabe-Token	45,864	34,431
Ausgabe-Token	2,480	91,587
Denk-Token	0	195,973
Antwortzeit (Durchschnitt)	2.31s	72.53s
Antwortzeit (Maximum)	6.65s	453.94s
Antwortzeit (Gesamt)	34.63s	1015.47s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#106 Qwen3.5 Plus 2026-02-15

none

Kosten: $0.012
Zeit: 153.2s
Token: 7,787 tok

#80 Step 3.5 Flash

medium

Kosten: $0.008
Zeit: 277.1s
Token: 23,695 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.5 Plus 2026-02-15	4.8	10.0	25.0%	0		1.91s	696	517	0
Step 3.5 Flash	10.0	10.0	100.0%	0		40.57s	694	20,391	24,176

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.5 Plus 2026-02-15	4.3	7.9	11.1%	1		2.05s	7,913	473	0
Step 3.5 Flash	2.4	5.2	0.0%	0		258.38s	2,211	13,207	22,429

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.5 Plus 2026-02-15	3.0	10.0	0.0%	0		6.65s	18,304	314	0
Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	13,638	1,176	12,984

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		1.89s	7,794	243	0
Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	7,368	600	13,886

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.5 Plus 2026-02-15	5.3	10.0	33.3%	0		1.17s	789	17	0
Step 3.5 Flash	5.3	7.2	44.4%	1		170.45s	673	45,350	90,436

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.5 Plus 2026-02-15	4.4	3.0	33.3%	1		2.26s	522	117	0
Step 3.5 Flash	5.5	10.0	0.0%	0		22.39s	509	240	3,506

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		1.67s	711	72	0
Step 3.5 Flash	8.3	10.0	50.0%	0		4.78s	705	2,364	3,521

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.5 Plus 2026-02-15	7.7	10.0	66.7%	0		2.71s	714	494	0
Step 3.5 Flash	5.3	10.0	33.3%	0		7.22s	711	5,630	10,861

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		3.33s	8,211	222	0
Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	7,701	275	3,802

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.5 Plus 2026-02-15	3.0	10.0	0.0%	0		1.11s	210	11	0
Step 3.5 Flash	3.0	10.0	0.0%	0		108.45s	221	2,354	10,372

Schnellvergleich

Vergleichspaar wechseln

North Mini CodemediumKostenlos verfügbarvsQwen3.5 Plus 2026-02-15none Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 Flashmedium Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 Flashmedium Gemini 3.1 Flash LitelowvsStep 3.5 Flashmedium Gemini 3.5 FlashminimalvsStep 3.5 Flashmedium Qwen3.7 MaxnonevsStep 3.5 Flashmedium Gemini 3.1 Flash LiteminimalvsQwen3.5 Plus 2026-02-15none Gemini 3 Flash PreviewnonevsStep 3.5 Flashmedium GPT-5.5nonevsStep 3.5 Flashmedium Gemini 3.5 FlashnonevsStep 3.5 Flashmedium Seed-2.0-LitenonevsStep 3.5 Flashmedium Gemini 2.5 FlashnonevsStep 3.5 Flashmedium