Навигация
AI BENCHY
Your ad here

AI BENCHY Compare

OpenAI: GPT-5.4 Mini vs xAI: Grok 4.20 Beta

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-21

Метрика GPT-5.4 Mini GPT-5.4 Mini medium Релиз: 2026-03-17 Grok 4.20 Beta Grok 4.20 Beta medium Релиз: 2026-03-12
Оценка 7.1 7.9
Ранг #36 #23
Стабильность 7.2 9.0
Тестов верно
Доля успешных попыток 68.6% 72.6%
Нестабильные тесты 6 2
Всего запусков 51 51
Стоимость за результат 3.610 5.525
Общая стоимость $0.289 $0.608
???? ????? $0.750 / 1M $2.000 / 1M
???? ?????? $4.500 / 1M $6.000 / 1M
Выходные токены 1,708 1,487
Токены рассуждений 58,019 87,922
Время ответа (среднее) 15.66s 8.54s
Время ответа (макс.) 102.91s 24.21s
Время ответа (суммарно) 266.14s 145.26s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.4 Mini 8.6 7.9 91.7% 1 4.05s 296 2,876
Grok 4.20 Beta 8.7 7.9 91.7% 1 3.16s 268 7,583
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.4 Mini 10.0 10.0 100.0% 0 17.81s 317 4,317
Grok 4.20 Beta 10.0 10.0 100.0% 0 20.93s 227 12,212
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.4 Mini 10.0 10.0 100.0% 0 2.43s 234 650
Grok 4.20 Beta 10.0 10.0 100.0% 0 4.01s 180 5,281
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.4 Mini 4.1 4.4 44.5% 2 65.31s 60 43,286
Grok 4.20 Beta 5.3 10.0 33.3% 0 21.33s 251 40,255
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.4 Mini 4.5 10.0 0.0% 0 3.72s 150 510
Grok 4.20 Beta 10.0 10.0 100.0% 0 5.78s 72 3,440
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.4 Mini 7.4 6.5 66.7% 1 2.50s 129 1,337
Grok 4.20 Beta 8.3 10.0 50.0% 0 4.97s 57 7,107
Puzzle Solving Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.4 Mini 6.8 7.9 55.6% 1 4.33s 271 2,449
Grok 4.20 Beta 8.2 7.2 88.9% 1 3.85s 249 6,660
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.4 Mini 4.7 1.6 66.7% 1 9.62s 251 2,594
Grok 4.20 Beta 3.0 10.0 0.0% 0 12.39s 183 5,384

Быстрое сравнение

Сменить пару сравнения