Навигация
AI BENCHY
Your ad here

AI BENCHY Compare

Сравниваемые модели

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-01

Метрика Grok 4.20 Grok 4.20 medium Релиз: 2026-03-31 Grok 4.20 Beta Grok 4.20 Beta medium Релиз: 2026-03-12 Grok 4.3 Grok 4.3 medium Релиз: 2026-05-01
Оценка 7.0 8.2 8.2
Ранг #63 #22 #20
Надежность Н/Д Н/Д 10.0
Стабильность 7.8 9.1 8.6
Тестов верно
Доля успешных попыток 66.7% 79.6% 81.5%
Нестабильные тесты 5 2 3
Всего запусков 54 52 54
Стоимость за результат 8.252 4.864 3.974
Общая стоимость $0.743 $0.633 $0.517
???? ????? $2.000 / 1M $0.000 / 1M $1.250 / 1M
???? ?????? $6.000 / 1M $0.000 / 1M $2.500 / 1M
Выходные токены 1,744 1,568 1,223
Токены рассуждений 109,882 91,909 187,047
Время ответа (среднее) 10.33s 9.81s 48.63s
Время ответа (макс.) 29.87s 31.36s 216.69s
Время ответа (суммарно) 185.87s 176.62s 875.27s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Grok 4.20 8.2 7.9 83.3% 1 3.36s 280 8,476
Grok 4.20 Beta 8.7 7.9 91.7% 1 3.16s 268 7,583
Grok 4.3 10.0 10.0 100.0% 0 8.83s 88 8,207
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Grok 4.20 4.3 1.1 66.7% 1 24.33s 250 12,804
Grok 4.20 Beta 10.0 10.0 100.0% 0 31.36s 81 3,987
Grok 4.3 10.0 10.0 100.0% 0 45.72s 284 9,659
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Grok 4.20 10.0 10.0 100.0% 0 17.40s 232 9,556
Grok 4.20 Beta 10.0 10.0 100.0% 0 20.93s 227 12,212
Grok 4.3 10.0 10.0 100.0% 0 63.99s 234 15,301
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Grok 4.20 10.0 10.0 100.0% 0 4.17s 180 5,333
Grok 4.20 Beta 10.0 10.0 100.0% 0 4.01s 180 5,281
Grok 4.3 10.0 10.0 100.0% 0 18.97s 180 9,546
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Grok 4.20 5.3 10.0 33.3% 0 27.03s 375 49,339
Grok 4.20 Beta 5.3 10.0 33.3% 0 21.33s 251 40,255
Grok 4.3 5.3 7.2 44.4% 1 181.74s 14 111,300
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Grok 4.20 5.8 2.8 66.7% 1 7.09s 47 4,252
Grok 4.20 Beta 10.0 10.0 100.0% 0 5.78s 72 3,440
Grok 4.3 5.4 2.5 66.7% 1 24.70s 70 5,020
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Grok 4.20 7.3 6.0 83.3% 1 4.42s 40 5,474
Grok 4.20 Beta 9.8 10.0 100.0% 0 4.97s 57 7,107
Grok 4.3 9.8 10.0 100.0% 0 18.58s 57 8,713
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Grok 4.20 6.4 7.7 55.6% 1 3.89s 143 8,028
Grok 4.20 Beta 8.2 7.2 88.9% 1 3.85s 249 6,660
Grok 4.3 5.9 7.2 55.6% 1 22.53s 128 14,686
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Grok 4.20 3.0 10.0 0.0% 0 13.68s 197 6,620
Grok 4.20 Beta 3.0 10.0 0.0% 0 12.39s 183 5,384
Grok 4.3 10.0 10.0 100.0% 0 17.66s 168 4,615

Быстрое сравнение

Сменить пару сравнения