Сравнить Графики

Язык:

❤️ Made by XCS

AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs OpenAI: GPT-5.4

Сравнить:

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-05

Метрика	Google: Gemini 3.1 Flash Lite Preview low Релиз: 2026-03-03	OpenAI: GPT-5.4 medium Релиз: 2026-03-05
Средний балл	7.6	8.2
Тестов верно
Ранг	#12	#7
Стабильность	10.0	8.9
Стоимость за результат	0.170	6.533
Общая стоимость	$0.019	$0.784
Доля успешных попыток	73.3%	86.7%
Нестабильные тесты	0	2
common.totalAttempts	45 (15 x 3)	45 (15 x 3)
Выходные токены	1,542	1,611
Токены рассуждений	6,888	46,321
Время ответа (среднее)	3.49s	21.06s
Время ответа (макс.)	11.91s	100.41s
Время ответа (суммарно)	52.29s	315.95s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview	7.0	10.0	66.7%	0		2.18s	456	1,224
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		5.02s	216	1,466

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	0.0%	0		11.91s	225	762
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		20.57s	301	3,543

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview	9.9	10.0	100.0%	0		3.00s	291	696
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		5.32s	234	804

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview	4.0	10.0	33.3%	0		2.36s	18	1,212
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		74.27s	61	34,748

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.49s	72	753
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		3.11s	93	897

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		2.76s	243	1,248
OpenAI: GPT-5.4	7.0	7.2	88.9%	1		9.13s	442	3,832

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		9.54s	237	993
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		13.28s	264	1,031

Быстрое сравнение

Сменить пару сравнения

DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Gemini 3 Flash PreviewlowvsGPT-5.4medium Gemini 3.1 Flash Lite PreviewhighvsGPT-5.4medium Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 FlashmediumБесплатно доступно Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewlowvsGLM 5medium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-122B-A10Bmedium Seed-2.0-MinimediumvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-Flashmedium