Сравнить Графики

Язык:

❤️ Made by XCS

AI BENCHY Compare

Google: Gemini 3 Flash Preview vs OpenAI: GPT-5.4

Сравнить:

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-05

Метрика	Google: Gemini 3 Flash Preview low Релиз: 2025-12-17	OpenAI: GPT-5.4 medium Релиз: 2026-03-05
Средний балл	8.1	8.2
Тестов верно
Ранг	#8	#7
Стабильность	9.4	8.9
Стоимость за результат	0.627	6.533
Общая стоимость	$0.076	$0.784
Доля успешных попыток	82.2%	86.7%
Нестабильные тесты	1	2
common.totalAttempts	45 (15 x 3)	45 (15 x 3)
Выходные токены	1,466	1,611
Токены рассуждений	18,969	46,321
Время ответа (среднее)	6.27s	21.06s
Время ответа (макс.)	14.72s	100.41s
Время ответа (суммарно)	94.05s	315.95s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Google: Gemini 3 Flash Preview	10.0	10.0	100.0%	0		3.50s	275	2,476
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		5.02s	216	1,466

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Google: Gemini 3 Flash Preview	10.0	10.0	0.0%	0		3.27s	326	0
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		20.57s	301	3,543

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Google: Gemini 3 Flash Preview	9.9	10.0	100.0%	0		9.40s	279	3,656
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		5.32s	234	804

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Google: Gemini 3 Flash Preview	4.0	7.2	44.4%	1		8.05s	12	6,410
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		74.27s	61	34,748

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Google: Gemini 3 Flash Preview	9.5	10.0	100.0%	0		7.02s	71	2,752
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		3.11s	93	897

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Google: Gemini 3 Flash Preview	10.0	10.0	100.0%	0		6.11s	269	3,260
OpenAI: GPT-5.4	7.0	7.2	88.9%	1		9.13s	442	3,832

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Google: Gemini 3 Flash Preview	10.0	10.0	100.0%	0		4.99s	234	415
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		13.28s	264	1,031

Быстрое сравнение

Сменить пару сравнения

Gemini 3 Flash PreviewlowvsQwen3.5-122B-A10Bmedium Gemini 3.1 Flash Lite PreviewhighvsGPT-5.4medium Gemini 3 Flash PreviewlowvsGPT-5.2 Chatnone Gemini 3 Flash PreviewlowvsQwen3.5-27Bmedium DeepSeek V3.2mediumvsGemini 3 Flash Previewlow Claude Sonnet 4.6mediumvsGemini 3 Flash Previewlow Gemini 3 Flash PreviewlowvsGPT-5.3-Codexmedium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium Gemini 3 Flash PreviewlowvsStep 3.5 FlashmediumБесплатно доступно Gemini 3 Flash PreviewlowvsMiMo-V2-Flashmedium Gemini 3 Flash PreviewlowvsGLM 5medium Gemini 3 Flash PreviewlowvsGPT-5.3 Chatnone