AI BENCHY
Vergleichen Diagramme
❤️ Made by XCS
Your ad here

#14

GPT-5.3 Chat

OpenAI · Veröffentlichung: 2026-03-03 · openai/gpt-5.3-chat::none

Ø-Score

7.27

Kosten pro Ergebnis

2.835

Konsistenz

8.27

Gesamtkosten

$0.256

Korrekte Tests

9

Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.

Falsche Tests

5

Erfolgsquote pro Versuch: 73.8%

Instabile Tests

3

Antwortzeit: Durchschn. 5.81s · Gesamt 81.36s · Max. 18.33s

Falsche Antwort: 3 Anweisungen nicht befolgt: 2

Top-Modelle nach Score

Wähle zuerst das erste Modell und klicke dann ein zweites Modell, um eine Seite im direkten Vergleich zu öffnen.

Schnellvergleich

Kategorieaufschlüsselung

Kategorie Ø-Score Konsistenz Korrekte Tests
Anti-AI Tricks 7.34 7.50 2/3
Data parsing and extraction 9.88 10.00 2/2
Domain specific 1.00 4.42 0/3
Instructions following 8.50 9.99 1/2
Puzzle Solving 10.00 10.00 3/3
Tool Calling 10.00 10.00 1/1