AI BENCHY
Vergleichen
❤️ Made by XCS
Your ad here

Modellname

OpenAI: GPT-5.3-Codex

Schlussfolgern (medium)

Benchmarks aus AI BENCHY-Test-Suites generiert am : 24.02.2026

Metrik OpenAI: GPT-5.3-Codex
Rang#6
UnternehmenOpenAI
Score 7.77
Konsistenz 8.75
Kosten pro Ergebnis 4.9342
Gesamtkosten $0.44408
Korrekte Tests
Erfolgsquote pro Versuch 76.9%
Instabile Tests 2
Ausgabe-Token 947
Denk-Token 29,564
Antwortzeit (Durchschnitt)17944ms
Antwortzeit (Gesamt)233267ms
Antwortzeit (Maximum)100927ms

Kategorieaufschlüsselung

Kategorie Vollständig bestandene Tests Score Konsistenz Erfolgsquote pro Versuch Instabile Tests Begründungswert Antwortzeit (Durchschnitt) Kosten
Anti-KI-Tricks 10.00 10.00 100.0% 0 6.00 4687ms $0.02371
Datenanalyse und -extraktion 10.00 10.00 100.0% 0 1.25 3180ms $0.02600
Domänenspezifisch 4.00 7.21 55.6% 1 1.00 64314ms $0.35664
Befolgung von Anweisungen 9.00 10.00 50.0% 0 1.00 3037ms $0.01216
Puzzle Solving 7.00 7.38 77.8% 1 6.00 4610ms $0.02559

Verglichene Modelle

OpenAI: GPT-5.3-Codex vergleichen mit...

#5 · Google

Google: Gemini 3 Flash Preview

Schlussfolgern (low)

Score: 8.23

Konsistenz: 8.71

Erfolgsquote pro Versuch: 82.0%

Instabile Tests: 2

Kosten pro Ergebnis: 0.6173

Korrekte Tests:

Gesamtkosten: $0.06174

Vergleichen

#7 · OpenAI

OpenAI: GPT-5.2

Schlussfolgern (medium)

Score: 7.38

Konsistenz: 8.73

Erfolgsquote pro Versuch: 76.9%

Instabile Tests: 2

Kosten pro Ergebnis: 2.5637

Korrekte Tests:

Gesamtkosten: $0.23074

Vergleichen

#4 · Qwen

Qwen: Qwen3.5 Plus 2026-02-15

Schlussfolgern (medium)

Score: 8.54

Konsistenz: 9.35

Erfolgsquote pro Versuch: 87.2%

Instabile Tests: 1

Kosten pro Ergebnis: 2.1621

Korrekte Tests:

Gesamtkosten: $0.23784

Vergleichen

Schnellvergleich

OpenAI: GPT-5.3-Codex vergleichen mit...