Навигация
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs xAI: Grok 4.20

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-04

Метрика Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview none Релиз: 2026-03-03 Grok 4.20 Grok 4.20 medium Релиз: 2026-03-31
Оценка 7.2 7.1
Ранг #58 #65
Надежность 10.0 10.0
Стабильность 9.7 8.8
Тестов верно
Доля успешных попыток 60.3% 63.5%
Нестабильные тесты 1 3
Всего запусков 63 63
Стоимость за результат 0.148 8.309
Общая стоимость $0.018 $0.609
Цена входа $0.250 / 1M $1.250 / 1M
Цена выхода $1.500 / 1M $2.500 / 1M
Общее число входных токенов 37,582 44,433
Выходные токены 5,547 1,819
Токены рассуждений 0 219,524
Время ответа (среднее) 1.21s 27.68s
Время ответа (макс.) 3.39s 199.66s
Время ответа (суммарно) 25.45s 581.26s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 3.1 Flash Lite Preview 7.5 8.4 66.7% 1 1.04s 504 1,092 0
Grok 4.20 8.2 7.9 83.3% 1 3.95s 2,010 287 8,312
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 3.1 Flash Lite Preview 5.5 10.0 33.3% 0 967ms 8,128 670 0
Grok 4.20 6.3 6.6 55.6% 1 109.93s 8,307 268 103,150
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 3.1 Flash Lite Preview 3.0 10.0 0.0% 0 3.20s 13,026 339 0
Grok 4.20 10.0 10.0 100.0% 0 17.40s 12,909 232 9,556
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 3.1 Flash Lite Preview 10.0 10.0 100.0% 0 1.22s 7,550 399 0
Grok 4.20 10.0 10.0 100.0% 0 4.17s 7,761 180 5,333
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 3.1 Flash Lite Preview 5.3 10.0 33.3% 0 942ms 641 568 0
Grok 4.20 5.3 10.0 33.3% 0 27.03s 1,764 375 49,339
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 3.1 Flash Lite Preview 4.0 10.0 0.0% 0 741ms 488 69 0
Grok 4.20 3.9 2.6 33.3% 1 24.48s 825 65 6,440
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 3.1 Flash Lite Preview 10.0 10.0 100.0% 0 1.13s 623 574 0
Grok 4.20 9.8 10.0 100.0% 0 4.26s 1,362 57 6,419
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 3.1 Flash Lite Preview 10.0 10.0 100.0% 0 900ms 570 1,045 0
Grok 4.20 7.7 10.0 66.7% 0 6.22s 1,689 149 7,913
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 3.1 Flash Lite Preview 10.0 10.0 100.0% 0 3.39s 5,894 782 0
Grok 4.20 3.0 10.0 0.0% 0 13.68s 7,275 197 6,620
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 3.1 Flash Lite Preview 3.0 10.0 0.0% 0 814ms 158 9 0
Grok 4.20 3.0 10.0 0.0% 0 63.48s 531 9 16,442

Быстрое сравнение

Сменить пару сравнения