AI BENCHY Compare

Google: Gemini 3.1 Flash Lite vs xAI: Grok 4.3

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-29

Метрика	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite high Релиз: 2026-05-08	Grok 4.3 Grok 4.3 medium Релиз: 2026-05-01

Метрика	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite high Релиз: 2026-05-08	Grok 4.3 Grok 4.3 medium Релиз: 2026-05-01
Оценка	7.6	7.8
Ранг	#49	#36
Надежность	10.0	10.0
Стабильность	8.1	8.4
Тестов верно
Доля успешных попыток	74.1%	75.0%
Нестабильные тесты	4	4
Всего запусков	54	60
Стоимость за результат	18.579	4.557
Общая стоимость	$2.044	$0.593
Цена входа	$0.250 / 1M	$1.250 / 1M
Цена выхода	$1.500 / 1M	$2.500 / 1M
Выходные токены	1,984	1,485
Токены рассуждений	1,355,583	214,710
Время ответа (среднее)	61.96s	49.23s
Время ответа (макс.)	149.23s	216.69s
Время ответа (суммарно)	1115.31s	984.52s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		37.16s	100	130,598
Grok 4.3	10.0	10.0	100.0%	0		8.83s	88	8,207

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		137.63s	666	188,733
Grok 4.3	7.4	6.5	66.7%	1		55.26s	532	24,554

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		149.23s	327	198,243
Grok 4.3	10.0	10.0	100.0%	0		63.99s	234	15,301

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		4.49s	279	7,351
Grok 4.3	10.0	10.0	100.0%	0		18.97s	180	9,546

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite	3.6	7.2	22.2%	1		139.90s	18	566,210
Grok 4.3	5.3	7.2	44.4%	1		181.74s	14	111,300

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite	5.0	2.1	66.7%	1		45.69s	95	64,644
Grok 4.3	5.4	2.5	66.7%	1		24.70s	70	5,020

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite	7.3	5.8	83.3%	1		23.26s	52	3,549
Grok 4.3	9.8	10.0	100.0%	0		18.58s	57	8,713

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite	5.7	6.8	44.4%	1		50.83s	213	193,654
Grok 4.3	5.9	7.2	55.6%	1		22.52s	128	14,468

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		6.44s	234	2,601
Grok 4.3	10.0	10.0	100.0%	0		17.66s	168	4,615

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite	-	-	-	-	-	-	-	-
Grok 4.3	3.0	10.0	0.0%	0		44.47s	14	12,986

Быстрое сравнение

Сменить пару сравнения

GPT-5.2 ChatnonevsGrok 4.3medium Qwen3.7 MaxnonevsGrok 4.3medium Gemini 3 Flash PreviewnonevsGrok 4.3medium DeepSeek V4 FlashhighБесплатно доступноvsGrok 4.3medium Gemini 3.1 Flash Lite PreviewlowvsGrok 4.3medium Gemini 3.5 FlashminimalvsGrok 4.3medium Gemini 3.1 Flash Lite PreviewnonevsGrok 4.3medium Gemini 3.1 Flash LitelowvsGrok 4.3medium GPT-5.3 ChatnonevsGrok 4.3medium Step 3.7 FlashlowvsGrok 4.3medium Claude Opus 4.8nonevsGrok 4.3medium Ring-2.6-1TnonevsGrok 4.3medium