Сравнить Графики Методология

Язык:

❤️ Made by XCS

AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs xAI: Grok 4.1 Fast

Сравнить:

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-06

Метрика	Google: Gemini 3.1 Flash Lite Preview low Релиз: 2026-03-03	xAI: Grok 4.1 Fast medium Релиз: 2025-11-19
Средний балл	7.6	6.4
Ранг	#12	#28
Тестов верно
Стабильность	10.0	7.8
Стоимость за результат	0.170	0.541
Общая стоимость	$0.019	$0.049
Доля успешных попыток	73.3%	71.1%
Нестабильные тесты	0	4
common.totalRuns	45 (15 x 3)	45 (15 x 3)
Выходные токены	1,542	1,056
Токены рассуждений	6,888	80,419
Время ответа (среднее)	3.49s	27.61s
Время ответа (макс.)	11.91s	121.79s
Время ответа (суммарно)	52.29s	220.87s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview	7.0	10.0	66.7%	0		2.18s	456	1,224
xAI: Grok 4.1 Fast	10.0	10.0	100.0%	0		5.65s	102	4,021

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	0.0%	0		11.91s	225	762
xAI: Grok 4.1 Fast	10.0	10.0	100.0%	0		37.64s	261	12,272

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview	9.9	10.0	100.0%	0		3.00s	291	696
xAI: Grok 4.1 Fast	9.9	10.0	100.0%	0		6.63s	180	5,409

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview	4.0	10.0	33.3%	0		2.36s	18	1,212
xAI: Grok 4.1 Fast	4.0	4.4	66.7%	2		121.79s	11	37,657

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.49s	72	753
xAI: Grok 4.1 Fast	5.5	10.0	50.0%	0		5.30s	55	3,489

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		2.76s	243	1,248
xAI: Grok 4.1 Fast	4.0	7.2	44.4%	1		8.08s	187	6,086

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		9.54s	237	993
xAI: Grok 4.1 Fast	10.0	1.6	33.3%	1		27.71s	260	11,485

Быстрое сравнение

Сменить пару сравнения

DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewlow Qwen3.5 Plus 2026-02-15nonevsGrok 4.1 Fastmedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 FlashmediumБесплатно доступно Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewlowvsGLM 5medium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsGPT-5.2 Chatnone Claude Sonnet 4.6nonevsGrok 4.1 Fastmedium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-122B-A10Bmedium Gemini 3 Flash PreviewnonevsGrok 4.1 Fastmedium