AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs OpenAI: GPT-5.4 Mini

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-17

Метрика	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview none Релиз: 2026-03-03	GPT-5.4 Mini GPT-5.4 Mini medium Релиз: 2026-03-17

Метрика	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview none Релиз: 2026-03-03	GPT-5.4 Mini GPT-5.4 Mini medium Релиз: 2026-03-17
Ранг	#23	#34
Оценка	7.8	7.1
Стабильность	9.6	7.2
Стоимость за результат	0.131	3.610
Общая стоимость	$0.015	$0.289
Тестов верно
Доля успешных попыток	68.6%	68.6%
Нестабильные тесты	1	6
Всего запусков	51	51
Выходные токены	4,721	1,708
Токены рассуждений	0	58,019
Время ответа (среднее)	1.29s	15.66s
Время ответа (макс.)	3.39s	102.91s
Время ответа (суммарно)	21.95s	266.14s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	7.5	8.4	66.7%	1		1.04s	1,092	0
GPT-5.4 Mini	8.6	7.9	91.7%	1		4.05s	296	2,876

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		3.20s	339	0
GPT-5.4 Mini	10.0	10.0	100.0%	0		17.81s	317	4,317

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.22s	399	0
GPT-5.4 Mini	10.0	10.0	100.0%	0		2.43s	234	650

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	5.3	10.0	33.3%	0		942ms	568	0
GPT-5.4 Mini	4.1	4.4	44.5%	2		65.31s	60	43,286

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	4.0	10.0	0.0%	0		741ms	69	0
GPT-5.4 Mini	4.5	10.0	0.0%	0		3.72s	150	510

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.13s	574	0
GPT-5.4 Mini	7.4	6.5	66.7%	1		2.50s	129	1,337

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		972ms	898	0
GPT-5.4 Mini	6.8	7.9	55.6%	1		4.33s	271	2,449

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.39s	782	0
GPT-5.4 Mini	4.7	1.6	66.7%	1		9.62s	251	2,594

Быстрое сравнение

Сменить пару сравнения

Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumБесплатно доступно Gemini 3.1 Flash Lite PreviewnonevsGrok 4.20 Betamedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Sonnet 4.6nonevsGPT-5.4 Minimedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewnonevsGLM 5 Turbomedium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4medium Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone GPT-5.4 MinimediumvsQwen3.5 Plus 2026-02-15none DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewnone GPT-5.4 MinimediumvsGLM 5none