#7

GPT-5.4

OpenAI · Sortie: 2026-03-05 · openai/gpt-5.4::medium

Score moy.

8.2

Coût par résultat

6.533

Cohérence

8.9

Coût total

$0.784

Tests corrects

12

Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.

Tests incorrects

3

Taux de réussite par tentative: 86.7%

Tests instables

2

Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).

Temps de réponse (moy.)

21.06s

Temps de réponse (max): 100.41s

Temps de réponse (total): 315.95s

Mauvaise réponse: 2 N'a pas suivi les instructions: 1

Meilleurs modèles par score

Choisissez d'abord le premier modèle, puis cliquez sur un second modèle pour ouvrir une page côte à côte.

#1 Gemini 3 Flash Preview 10.0

#2 Gemini 3.1 Pro Preview 9.3

#3 Qwen3.5 Plus 2026-02-15 8.8

#4 GPT-5.3-Codex 8.7

#5 Qwen3.5-27B 8.5

#6 Qwen3.5-122B-A10B 8.2

#7 GPT-5.4 8.2

#8 Gemini 3 Flash Preview 8.1

#9 Gemini 3 Pro Preview 8.1

#10 Gemini 3.1 Flash Lite Preview 8.1

#11 GPT-5.2 Chat 7.7

#12 Gemini 3.1 Flash Lite Preview 7.6

#13 DeepSeek V3.2 7.6

Catégorie	Score moy.	Cohérence	Tests corrects
Anti-AI Tricks	10.0	10.0	3/3
Combined	10.0	10.0	1/1
Data parsing and extraction	9.9	10.0	2/2
Domain specific	4.0	7.2	1/3
Instructions following	10.0	10.0	2/2
Puzzle Solving	7.0	7.2	2/3
Tool Calling	10.0	10.0	1/1