AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs xAI: Grok 4.3

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-01

Метрика	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview low Релиз: 2026-03-03	Grok 4.3 Grok 4.3 medium Релиз: 2026-05-01

Метрика	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview low Релиз: 2026-03-03	Grok 4.3 Grok 4.3 medium Релиз: 2026-05-01
Оценка	8.1	8.2
Ранг	#31	#20
Надежность	Н/Д	10.0
Стабильность	10.0	8.6
Тестов верно
Доля успешных попыток	72.2%	81.5%
Нестабильные тесты	0	3
Всего запусков	54	54
Стоимость за результат	0.168	3.974
Общая стоимость	$0.022	$0.517
???? ?????	$0.250 / 1M	$1.250 / 1M
???? ??????	$1.500 / 1M	$2.500 / 1M
Выходные токены	2,247	1,223
Токены рассуждений	8,058	187,047
Время ответа (среднее)	3.22s	48.63s
Время ответа (макс.)	11.91s	216.69s
Время ответа (суммарно)	58.00s	875.27s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	8.3	10.0	75.0%	0		2.12s	462	1,638
Grok 4.3	10.0	10.0	100.0%	0		8.83s	88	8,207

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		2.20s	630	372
Grok 4.3	10.0	10.0	100.0%	0		45.72s	284	9,659

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		11.91s	225	762
Grok 4.3	10.0	10.0	100.0%	0		63.99s	234	15,301

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.00s	291	696
Grok 4.3	10.0	10.0	100.0%	0		18.97s	180	9,546

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	5.3	10.0	33.3%	0		2.36s	18	1,212
Grok 4.3	5.3	7.2	44.4%	1		181.74s	14	111,300

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	4.0	10.0	0.0%	0		1.54s	69	384
Grok 4.3	5.4	2.5	66.7%	1		24.70s	70	5,020

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.49s	72	753
Grok 4.3	9.8	10.0	100.0%	0		18.58s	57	8,713

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		2.76s	243	1,248
Grok 4.3	5.9	7.2	55.6%	1		22.53s	128	14,686

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		9.54s	237	993
Grok 4.3	10.0	10.0	100.0%	0		17.66s	168	4,615

Быстрое сравнение

Сменить пару сравнения

Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5-Promedium Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2-Promedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5 Plus 2026-04-20medium Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 Plusmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-122B-A10Bmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 Flashmedium Gemini 3.1 Flash Lite PreviewlowvsGLM 5 Turbomedium Gemini 3.1 Flash Lite PreviewlowvsHY3 PreviewmediumБесплатно доступно Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium HY3 PreviewlowБесплатно доступноvsGrok 4.3medium DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewlow