AI BENCHY Compare

Google: Gemini 3.1 Flash Lite vs OpenAI: GPT-5.5

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-22

Метрика	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite minimal Релиз: 2026-05-08	GPT-5.5 GPT-5.5 medium Релиз: 2026-04-24

Метрика	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite minimal Релиз: 2026-05-08	GPT-5.5 GPT-5.5 medium Релиз: 2026-04-24
Оценка	6.7	8.7
Ранг	#78	#11
Надежность	10.0	10.0
Стабильность	8.8	8.8
Тестов верно
Доля успешных попыток	56.7%	86.7%
Нестабильные тесты	3	3
Всего запусков	60	60
Стоимость за результат	0.123	21.891
Общая стоимость	$0.013	$3.503
???? ?????	$0.250 / 1M	$5.000 / 1M
???? ??????	$1.500 / 1M	$30.000 / 1M
Выходные токены	2,481	1,973
Токены рассуждений	0	109,510
Время ответа (среднее)	1.37s	37.89s
Время ответа (макс.)	4.49s	332.10s
Время ответа (суммарно)	27.32s	757.71s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite	8.3	10.0	75.0%	0		1.10s	639	0
GPT-5.5	10.0	10.0	100.0%	0		4.66s	250	1,335

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite	6.8	10.0	50.0%	0		951ms	660	0
GPT-5.5	8.2	6.7	83.3%	1		69.68s	341	19,515

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		2.53s	357	0
GPT-5.5	10.0	10.0	100.0%	0		19.29s	312	2,841

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		1.04s	279	0
GPT-5.5	10.0	10.0	100.0%	0		4.18s	234	593

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite	2.9	7.2	11.1%	1		1.02s	15	0
GPT-5.5	5.3	7.2	44.4%	1		164.14s	67	79,625

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite	4.0	10.0	0.0%	0		791ms	63	0
GPT-5.5	10.0	10.0	100.0%	0		4.16s	138	223

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		932ms	72	0
GPT-5.5	10.0	10.0	100.0%	0		3.36s	93	538

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite	6.0	4.6	66.7%	2		2.15s	153	0
GPT-5.5	10.0	10.0	100.0%	0		6.78s	250	2,254

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		3.51s	234	0
GPT-5.5	10.0	10.0	100.0%	0		10.57s	258	832

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		724ms	9	0
GPT-5.5	2.8	1.6	33.3%	1		37.86s	30	1,754

Быстрое сравнение

Сменить пару сравнения

Gemini 3.1 Flash LiteminimalvsKimi K2.5medium DeepSeek V4 ProhighvsGemini 3.1 Flash Liteminimal Gemini 3.1 Flash LiteminimalvsGrok 4.20medium Gemini 3.1 Flash LiteminimalvsGrok Build 0.1none Gemini 3 Flash PreviewlowvsGPT-5.5medium Gemini 3.1 Flash LiteminimalvsQwen3.6 27Bmedium Gemini 3.1 Flash LiteminimalvsGPT-5.5none Gemini 3.5 FlashnonevsGPT-5.5medium Gemini 3.1 Flash LiteminimalvsGPT-5 Minimedium Gemini 3.1 Flash LiteminimalvsMiMo-V2-Omnimedium Gemini 3.1 Flash LiteminimalvsQwen3.5 Plus 2026-02-15none DeepSeek V3.2mediumvsGemini 3.1 Flash Liteminimal