Навигация
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Google: Gemini 2.5 Flash vs OpenAI: GPT-5.4

Сводка

Сравнение benchmark Gemini 2.5 Flash vs GPT-5.4: GPT-5.4 лидирует по среднему баллу: 8.5 vs 8.2. Gemini 2.5 Flash имеет более низкую стоимость benchmark: $0.379 vs $1.210. Gemini 2.5 Flash быстрее: 15.49s vs 22.35s, с долей успешных попыток 69.8% vs 76.2%.

Рекомендуемая модель: Gemini 2.5 Flash - Его балл близок к лучшему здесь (8.2 против 8.5), при этом он примерно в 3.2 раза дешевле, чем GPT-5.4.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-18

Метрика Gemini 2.5 Flash Gemini 2.5 Flash medium Релиз: 2025-06-17 GPT-5.4 GPT-5.4 medium Релиз: 2026-03-05
Оценка 8.2 8.5
Ранг #24 #17
Надежность 10.0 10.0
Стабильность 9.6 8.6
Тестов верно
Доля успешных попыток 69.8% 76.2%
Нестабильные тесты 1 4
Всего запусков 63 63
Стоимость за результат 2.701 8.640
Общая стоимость $0.379 $1.210
Цена входа $0.300 / 1M $2.500 / 1M
Цена выхода $2.500 / 1M $15.000 / 1M
Общее число входных токенов 34,476 34,108
Выходные токены 1,930 2,242
Токены рассуждений 145,145 72,707
Время ответа (среднее) 15.49s 22.35s
Время ответа (макс.) 95.48s 100.41s
Время ответа (суммарно) 325.39s 469.29s

Генерация showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#24 Gemini 2.5 Flash

medium
Неверный SVG
Стоимость
$0.000
Время
274.0s
Токены
0 tok

#17 GPT-5.4

medium
Стоимость
$0.214
Время
199.6s
Токены
14,349 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 2.5 Flash 8.4 10.0 75.0% 0 6.30s 492 255 10,233
GPT-5.4 8.3 10.0 75.0% 0 4.11s 606 240 1,511
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 2.5 Flash 7.8 10.0 66.7% 0 41.01s 6,669 543 32,303
GPT-5.4 8.8 7.8 88.9% 1 44.36s 7,305 433 24,216
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 2.5 Flash 10.0 10.0 100.0% 0 28.44s 12,522 303 11,922
GPT-5.4 10.0 10.0 100.0% 0 20.57s 11,019 301 3,543
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 2.5 Flash 10.0 10.0 100.0% 0 4.06s 7,257 279 2,325
GPT-5.4 10.0 10.0 100.0% 0 5.32s 7,140 234 804
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 2.5 Flash 5.9 7.2 55.6% 1 37.34s 633 18 80,702
GPT-5.4 5.3 7.2 44.4% 1 74.27s 619 61 34,748
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 2.5 Flash 4.8 10.0 0.0% 0 4.86s 486 92 1,899
GPT-5.4 4.7 3.1 33.3% 1 4.92s 477 145 321
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 2.5 Flash 9.8 10.0 100.0% 0 2.62s 615 69 1,203
GPT-5.4 10.0 10.0 100.0% 0 3.11s 660 93 897
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 2.5 Flash 7.7 10.0 66.7% 0 3.18s 558 126 2,499
GPT-5.4 8.2 7.2 88.9% 1 9.14s 642 441 3,815
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 2.5 Flash 10.0 10.0 100.0% 0 6.20s 5,088 234 1,140
GPT-5.4 10.0 10.0 100.0% 0 13.28s 5,445 264 1,031
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Gemini 2.5 Flash 3.0 10.0 0.0% 0 2.76s 156 11 919
GPT-5.4 3.0 10.0 0.0% 0 13.95s 195 30 1,821

Быстрое сравнение

Сменить пару сравнения