Navigation
AI BENCHY
Vergleichen Diagramme
❤️ Made by XCS
Your ad here

AI BENCHY Compare

Qwen: Qwen3 Coder Next vs StepFun: Step 3.5 Flash

Modellname:

Benchmarks aus AI BENCHY-Test-Suites generiert am : 2026-02-27 15:16

Zusammenfassung

Metrik Qwen: Qwen3 Coder Next medium Veröffentlichung: Unbekanntes Veröffentlichungsdatum StepFun: Step 3.5 Flash medium Veröffentlichung: Unbekanntes Veröffentlichungsdatum Kostenlos verfügbar
Rang #36 #11
Punktzahl 3.50 7.00
Konsistenz 8.43 8.32
Kosten pro Ergebnis 0.135 0.000
Gesamtkosten $0.005 $0.000
Korrekte Tests
Falsche Tests 11 5
Erfolgsquote pro Versuch 31.0% 73.8%
Instabile Tests 3 3
Ausgabe-Token 2,569 60,502
Denk-Token 0 117,044

Kategorieaufschlüsselung

Anti-KI-Tricks Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Ausgabe-Token Denk-Token
Qwen: Qwen3 Coder Next 1.33 7.49 22.2% 1 1,246 0
StepFun: Step 3.5 Flash 10.00 10.00 100.0% 0 13,924 17,208
Datenanalyse und -extraktion Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Ausgabe-Token Denk-Token
Qwen: Qwen3 Coder Next 5.50 10.00 50.0% 0 276 0
StepFun: Step 3.5 Flash 10.00 10.00 100.0% 0 535 11,548
Domänenspezifisch Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Ausgabe-Token Denk-Token
Qwen: Qwen3 Coder Next 4.00 10.00 33.3% 0 24 0
StepFun: Step 3.5 Flash 4.00 7.21 44.4% 1 40,942 74,237
Befolgung von Anweisungen Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Ausgabe-Token Denk-Token
Qwen: Qwen3 Coder Next 4.50 6.88 16.7% 1 67 0
StepFun: Step 3.5 Flash 10.00 10.00 100.0% 0 2,121 3,274
Puzzle Solving Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Ausgabe-Token Denk-Token
Qwen: Qwen3 Coder Next 1.00 7.28 11.1% 1 701 0
StepFun: Step 3.5 Flash 2.00 4.96 33.3% 2 2,705 6,975
Werkzeugaufrufe Punktzahl Konsistenz Erfolgsquote pro Versuch Instabile Tests Korrekte Tests Ausgabe-Token Denk-Token
Qwen: Qwen3 Coder Next 10.00 10.00 100.0% 0 255 0
StepFun: Step 3.5 Flash 10.00 10.00 100.0% 0 275 3,802

Vergleichspaar wechseln