Навигация
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Google: Gemini 3.1 Pro Preview vs Grok 4.20 Beta

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-04-26

Метрика Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Релиз: 2026-02-19 Grok 4.20 Beta Grok 4.20 Beta medium Релиз: 2026-03-12
Оценка 9.6 8.0
Ранг #2 #31
Надежность Н/Д Н/Д
Стабильность 10.0 9.1
Тестов верно
Доля успешных попыток 94.4% 74.1%
Нестабильные тесты 0 2
Всего запусков 54 52
Стоимость за результат 3.400 5.269
Общая стоимость $0.578 $0.633
???? ????? $2.000 / 1M $0.000 / 1M
???? ?????? $12.000 / 1M $0.000 / 1M
Выходные токены 1,932 1,568
Токены рассуждений 40,542 91,909
Время ответа (среднее) 15.96s 9.81s
Время ответа (макс.) 40.61s 31.36s
Время ответа (суммарно) 175.52s 176.62s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 7.90s 112 3,218
Grok 4.20 Beta 8.7 7.9 91.7% 1 3.16s 268 7,583
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 19.88s 405 4,201
Grok 4.20 Beta 10.0 10.0 100.0% 0 31.36s 81 3,987
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Gemini 3.1 Pro Preview 9.5 10.0 100.0% 0 40.61s 432 9,281
Grok 4.20 Beta 10.0 10.0 100.0% 0 20.93s 227 12,212
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 7.72s 279 3,904
Grok 4.20 Beta 10.0 10.0 100.0% 0 4.01s 180 5,281
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Gemini 3.1 Pro Preview 7.7 10.0 66.7% 0 32.73s 18 12,424
Grok 4.20 Beta 5.3 10.0 33.3% 0 21.33s 251 40,255
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 11.77s 108 1,179
Grok 4.20 Beta 10.0 10.0 100.0% 0 5.78s 72 3,440
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 9.56s 72 2,236
Grok 4.20 Beta 8.3 10.0 50.0% 0 4.97s 57 7,107
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 7.15s 232 3,117
Grok 4.20 Beta 8.2 7.2 88.9% 1 3.85s 249 6,660
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 23.15s 274 982
Grok 4.20 Beta 3.0 10.0 0.0% 0 12.39s 183 5,384

Быстрое сравнение

Сменить пару сравнения