Навигация
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

OpenAI: GPT-5.4 vs xAI: Grok 4.3

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-22

Метрика GPT-5.4 GPT-5.4 medium Релиз: 2026-03-05 Grok 4.3 Grok 4.3 medium Релиз: 2026-05-01
Оценка 7.9 7.8
Ранг #27 #31
Надежность 10.0 10.0
Стабильность 8.5 8.4
Тестов верно
Доля успешных попыток 75.0% 75.0%
Нестабильные тесты 4 4
Всего запусков 60 60
Стоимость за результат 8.767 4.562
Общая стоимость $1.140 $0.593
???? ????? $2.500 / 1M $1.250 / 1M
???? ?????? $15.000 / 1M $2.500 / 1M
Выходные токены 2,222 1,485
Токены рассуждений 68,503 214,928
Время ответа (среднее) 22.31s 49.23s
Время ответа (макс.) 100.41s 216.69s
Время ответа (суммарно) 446.15s 984.54s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.4 8.3 10.0 75.0% 0 4.11s 240 1,511
Grok 4.3 10.0 10.0 100.0% 0 8.83s 88 8,207
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.4 8.2 6.7 83.3% 1 54.98s 412 19,995
Grok 4.3 7.4 6.5 66.7% 1 55.26s 532 24,554
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.4 10.0 10.0 100.0% 0 20.57s 301 3,543
Grok 4.3 10.0 10.0 100.0% 0 63.99s 234 15,301
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.4 10.0 10.0 100.0% 0 5.32s 234 804
Grok 4.3 10.0 10.0 100.0% 0 18.97s 180 9,546
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.4 5.3 7.2 44.4% 1 74.27s 61 34,748
Grok 4.3 5.3 7.2 44.4% 1 181.74s 14 111,300
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.4 4.7 3.1 33.3% 1 4.92s 145 321
Grok 4.3 5.4 2.5 66.7% 1 24.70s 70 5,020
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.4 10.0 10.0 100.0% 0 3.11s 93 897
Grok 4.3 9.8 10.0 100.0% 0 18.58s 57 8,713
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.4 8.2 7.2 88.9% 1 9.13s 442 3,832
Grok 4.3 5.9 7.2 55.6% 1 22.53s 128 14,686
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.4 10.0 10.0 100.0% 0 13.28s 264 1,031
Grok 4.3 10.0 10.0 100.0% 0 17.66s 168 4,615
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.4 3.0 10.0 0.0% 0 13.95s 30 1,821
Grok 4.3 3.0 10.0 0.0% 0 44.47s 14 12,986

Быстрое сравнение

Сменить пару сравнения