AI BENCHY
Vergleichen
❤️ Made by XCS

Modellname

StepFun: Step 3.5 Flash

Benchmarks aus Aibenchy-Test-Suites generiert am : 19.02.2026

Metrik StepFun: Step 3.5 Flash
Rang#18
UnternehmenStepfun
Score 4.92
Konsistenz 7.34
Kosten pro Ergebnis 0.0000
Gesamtkosten $0.00000
Korrekte Tests 5/12
Erfolgsquote pro Versuch 58.3%
Instabile Tests 4
Ausgabe-Token 46,871
Denk-Token 95,440

Kategorieaufschlüsselung

Kategorie Vollständig bestandene Tests Score Konsistenz Erfolgsquote pro Versuch Instabile Tests Begründungswert Kosten
Anti-AI Tricks 1/2 5.50 5.81 83.3% 1 10.00 $0.00000
Data parsing and extraction 1/2 5.00 10.00 50.0% 0 9.75 $0.00000
Domain specific 1/3 4.00 7.21 44.4% 1 8.44 $0.00000
Instructions following 2/2 10.00 10.00 100.0% 0 9.67 $0.00000
Puzzle Solving 0/3 2.00 4.96 33.3% 2 9.22 $0.00000

Verglichene Modelle

StepFun: Step 3.5 Flash vergleichen mit...

#17 · MiniMax

MiniMax: MiniMax M2.5

Schlussfolgern (medium)

Score: 5.08

Konsistenz: 6.00

Erfolgsquote pro Versuch: 61.1%

Instabile Tests: 6

Kosten pro Ergebnis: 4.0276

Korrekte Tests: 5/12

Gesamtkosten: $0.20138

Vergleichen

#19 · OpenAI

OpenAI: GPT-4o-mini

Ohne Schlussfolgern

Score: 4.00

Konsistenz: 9.98

Erfolgsquote pro Versuch: 25.0%

Instabile Tests: 0

Kosten pro Ergebnis: 0.0576

Korrekte Tests: 3/12

Gesamtkosten: $0.00173

Vergleichen

#16 · Anthropic

Anthropic: Claude Opus 4.6

Schlussfolgern (medium)

Score: 5.42

Konsistenz: 8.60

Erfolgsquote pro Versuch: 55.5%

Instabile Tests: 2

Kosten pro Ergebnis: 12.8695

Korrekte Tests: 6/12

Gesamtkosten: $0.77217

Vergleichen

Schnellvergleich

StepFun: Step 3.5 Flash vergleichen mit...