Навигация
AI BENCHY
Your ad here

AI BENCHY Compare

OpenAI: GPT-5.2 Chat vs OpenAI: GPT-5.4

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-15

Метрика GPT-5.2 Chat GPT-5.2 Chat none Релиз: 2025-12-11 GPT-5.4 GPT-5.4 medium Релиз: 2026-03-05
Ранг #17 #9
Оценка 8.0 8.5
Стабильность 9.1 8.5
Стоимость за результат 2.440 6.601
Общая стоимость $0.269 $0.793
Тестов верно
Доля успешных попыток 75.0% 83.3%
Нестабильные тесты 2 3
Всего запусков 48 48
Выходные токены 15,845 1,756
Токены рассуждений 0 46,642
Время ответа (среднее) 7.03s 20.05s
Время ответа (макс.) 38.52s 100.41s
Время ответа (суммарно) 112.51s 320.87s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.2 Chat 10.0 10.0 100.0% 0 3.97s 1,651 0
GPT-5.4 10.0 10.0 100.0% 0 5.02s 216 1,466
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.2 Chat 10.0 10.0 100.0% 0 9.12s 1,243 0
GPT-5.4 10.0 10.0 100.0% 0 20.57s 301 3,543
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.2 Chat 10.0 10.0 100.0% 0 3.05s 980 0
GPT-5.4 10.0 10.0 100.0% 0 5.32s 234 804
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.2 Chat 5.3 10.0 33.3% 0 17.78s 7,810 0
GPT-5.4 5.3 7.2 44.4% 1 74.27s 61 34,748
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.2 Chat 4.4 3.0 33.3% 1 3.20s 335 0
GPT-5.4 4.7 3.1 33.3% 1 4.92s 145 321
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.2 Chat 7.5 6.1 83.3% 1 5.46s 1,528 0
GPT-5.4 10.0 10.0 100.0% 0 3.11s 93 897
Puzzle Solving Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.2 Chat 7.7 10.0 66.7% 0 4.42s 1,743 0
GPT-5.4 8.2 7.2 88.9% 1 9.13s 442 3,832
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.2 Chat 10.0 10.0 100.0% 0 4.68s 555 0
GPT-5.4 10.0 10.0 100.0% 0 13.28s 264 1,031

Быстрое сравнение

Сменить пару сравнения