AI BENCHY
Vergelijken Grafieken
โค๏ธ Made by XCS
Your ad here

#7

GPT-5.4

OpenAI ยท Releasedatum: 2026-03-05 ยท openai/gpt-5.4::medium

Gem. score

8.2

Kosten per resultaat

6.533

Consistentie

8.9

Totale kosten

$0.784

Correcte tests

12

Een test is alleen volledig geslaagd als alle runs slagen.

Foute tests

3

Slaagpercentage per poging: 86.7%

Instabiele tests

2

Instabiele tests hadden gemengde uitkomsten over runs (minstens รฉรฉn geslaagd en รฉรฉn gefaald).

Responstijd (gem.)

21.06s

Responstijd (max): 100.41s

Responstijd (totaal): 315.95s

Verkeerd antwoord: 2 Instructies niet gevolgd: 1

Topmodellen op score

Kies eerst het eerste model en klik daarna op een tweede model om een zij-aan-zijpagina te openen.

Snelle vergelijking

Categorie-uitsplitsing

Categorie Gem. score Consistentie Correcte tests
Anti-AI Tricks 10.0 10.0 3/3
Combined 10.0 10.0 1/1
Data parsing and extraction 9.9 10.0 2/2
Domain specific 4.0 7.2 1/3
Instructions following 10.0 10.0 2/2
Puzzle Solving 7.0 7.2 2/3
Tool Calling 10.0 10.0 1/1