Навигация
AI BENCHY
Сравнить Графики Методология
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Google: Gemini 2.5 Flash vs OpenAI: GPT-5.4

Сравнить:

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-06

Метрика Google: Gemini 2.5 Flash none Релиз: 2025-06-17 OpenAI: GPT-5.4 medium Релиз: 2026-03-05
Ранг #38 #9
Средний балл 5.2 8.0
Стабильность 9.1 8.5
Стоимость за результат 0.191 6.601
Общая стоимость $0.012 $0.793
Тестов верно
Доля успешных попыток 43.8% 83.3%
Нестабильные тесты 2 3
Всего запусков 48 (16 x 3) 48 (16 x 3)
Выходные токены 1,270 1,756
Токены рассуждений 0 46,642
Время ответа (среднее) 923ms 20.05s
Время ответа (макс.) 4.39s 100.41s
Время ответа (суммарно) 14.78s 320.87s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Google: Gemini 2.5 Flash 10.0 10.0 0.0% 0 668ms 99 0
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 5.02s 216 1,466
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Google: Gemini 2.5 Flash 10.0 10.0 0.0% 0 4.39s 366 0
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 20.57s 301 3,543
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Google: Gemini 2.5 Flash 9.9 10.0 100.0% 0 652ms 279 0
OpenAI: GPT-5.4 9.9 10.0 100.0% 0 5.32s 234 804
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Google: Gemini 2.5 Flash 4.0 7.2 55.6% 1 495ms 12 0
OpenAI: GPT-5.4 4.0 7.2 44.4% 1 74.27s 61 34,748
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Google: Gemini 2.5 Flash 5.0 10.0 0.0% 0 615ms 78 0
OpenAI: GPT-5.4 5.0 3.1 33.3% 1 4.92s 145 321
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Google: Gemini 2.5 Flash 9.0 6.8 66.7% 1 672ms 70 0
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 3.11s 93 897
Puzzle Solving Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Google: Gemini 2.5 Flash 4.7 10.0 33.3% 0 576ms 132 0
OpenAI: GPT-5.4 7.0 7.2 88.9% 1 9.13s 442 3,832
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Google: Gemini 2.5 Flash 10.0 10.0 100.0% 0 1.91s 234 0
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 13.28s 264 1,031

Быстрое сравнение

Сменить пару сравнения