#7

GPT-5.4

OpenAI · Релиз: 2026-03-05 · openai/gpt-5.4::medium

Средний балл

8.2

Стоимость за результат

6.533

Стабильность

8.9

Общая стоимость

$0.784

Тестов верно

12

Тест считается полностью пройденным, только если все его прогоны успешны.

Ошибочных тестов

3

Доля успешных попыток: 86.7%

Нестабильные тесты

2

Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).

Время ответа (среднее)

21.06s

Время ответа (макс.): 100.41s

Время ответа (суммарно): 315.95s

Неверный ответ: 2 Не соблюдены инструкции: 1

Лучшие модели по оценке

Выберите первую модель, затем нажмите вторую, чтобы открыть страницу сравнения бок о бок.

#1 Gemini 3 Flash Preview 10.0

#2 Gemini 3.1 Pro Preview 9.3

#3 Qwen3.5 Plus 2026-02-15 8.8

#4 GPT-5.3-Codex 8.7

#5 Qwen3.5-27B 8.5

#6 Qwen3.5-122B-A10B 8.2

#7 GPT-5.4 8.2

#8 Gemini 3 Flash Preview 8.1

#9 Gemini 3 Pro Preview 8.1

#10 Gemini 3.1 Flash Lite Preview 8.1

#11 GPT-5.2 Chat 7.7

#12 Gemini 3.1 Flash Lite Preview 7.6

#13 DeepSeek V3.2 7.6

Категория	Средний балл	Стабильность	Тестов верно
Anti-AI Tricks	10.0	10.0	3/3
Combined	10.0	10.0	1/1
Data parsing and extraction	9.9	10.0	2/2
Domain specific	4.0	7.2	1/3
Instructions following	10.0	10.0	2/2
Puzzle Solving	7.0	7.2	2/3
Tool Calling	10.0	10.0	1/1