AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs xAI: Grok 4.3

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-29

Метрика	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Релиз: 2026-03-03	Grok 4.3 Grok 4.3 medium Релиз: 2026-05-01

Метрика	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Релиз: 2026-03-03	Grok 4.3 Grok 4.3 medium Релиз: 2026-05-01
Оценка	7.7	7.8
Ранг	#39	#36
Надежность	10.0	10.0
Стабильность	10.0	8.4
Тестов верно
Доля успешных попыток	65.0%	75.0%
Нестабильные тесты	0	4
Всего запусков	60	60
Стоимость за результат	0.481	4.557
Общая стоимость	$0.063	$0.593
Цена входа	$0.250 / 1M	$1.250 / 1M
Цена выхода	$1.500 / 1M	$2.500 / 1M
Выходные токены	2,204	1,485
Токены рассуждений	33,657	214,710
Время ответа (среднее)	3.94s	49.23s
Время ответа (макс.)	14.93s	216.69s
Время ответа (суммарно)	78.74s	984.52s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	9.1	10.0	75.0%	0		2.33s	570	4,305
Grok 4.3	10.0	10.0	100.0%	0		8.83s	88	8,207

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	6.8	10.0	50.0%	0		3.98s	455	5,510
Grok 4.3	7.4	6.5	66.7%	1		55.26s	532	24,554

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		14.93s	327	7,347
Grok 4.3	10.0	10.0	100.0%	0		63.99s	234	15,301

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		2.29s	279	2,952
Grok 4.3	10.0	10.0	100.0%	0		18.97s	180	9,546

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		4.21s	18	5,325
Grok 4.3	5.3	7.2	44.4%	1		181.74s	14	111,300

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.16s	96	1,488
Grok 4.3	5.4	2.5	66.7%	1		24.70s	70	5,020

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.91s	72	2,121
Grok 4.3	9.8	10.0	100.0%	0		18.58s	57	8,713

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	7.7	10.0	66.7%	0		5.30s	141	1,896
Grok 4.3	5.9	7.2	55.6%	1		22.52s	128	14,468

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.80s	234	912
Grok 4.3	10.0	10.0	100.0%	0		17.66s	168	4,615

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		2.68s	12	1,801
Grok 4.3	3.0	10.0	0.0%	0		44.47s	14	12,986

Быстрое сравнение

Сменить пару сравнения

GPT-5.2 ChatnonevsGrok 4.3medium DeepSeek V4 FlashhighБесплатно доступноvsGemini 3.1 Flash Lite Previewmedium Qwen3.7 MaxnonevsGrok 4.3medium Gemini 3 Flash PreviewnonevsGrok 4.3medium Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.2 Chatnone DeepSeek V4 FlashhighБесплатно доступноvsGrok 4.3medium Gemini 3.1 Flash Lite PreviewlowvsGrok 4.3medium Gemini 3.5 FlashminimalvsGrok 4.3medium Gemini 3.1 Flash Lite PreviewmediumvsQwen3.7 Maxnone Gemini 3.1 Flash Lite PreviewnonevsGrok 4.3medium Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewmediumvsStep 3.7 Flashlow