Навигация
AI BENCHY
Сравнить Графики Методология
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

ByteDance Seed: Seed-2.0-Mini vs OpenAI: GPT-5.4

Сравнить:

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-06

Метрика ByteDance Seed: Seed-2.0-Mini medium Релиз: 2026-02-14 OpenAI: GPT-5.4 none Релиз: 2026-03-05
Средний балл 7.0 4.6
Ранг #24 #45
Тестов верно
Стабильность 9.4 8.9
Стоимость за результат 0.261 1.496
Общая стоимость $0.027 $0.090
Доля успешных попыток 71.1% 44.4%
Нестабильные тесты 1 2
common.totalRuns 45 (15 x 3) 45 (15 x 3)
Выходные токены 1,752 1,635
Токены рассуждений 54,246 0
Время ответа (среднее) 67.46s 1.46s
Время ответа (макс.) 262.83s 2.89s
Время ответа (суммарно) 809.49s 21.86s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
ByteDance Seed: Seed-2.0-Mini 7.0 10.0 66.7% 0 98.99s 354 9,352
OpenAI: GPT-5.4 10.0 7.3 11.1% 1 1.41s 388 0
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
ByteDance Seed: Seed-2.0-Mini 10.0 10.0 100.0% 0 262.83s 404 29,806
OpenAI: GPT-5.4 10.0 10.0 0.0% 0 2.89s 291 0
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
ByteDance Seed: Seed-2.0-Mini 9.9 10.0 100.0% 0 24.27s 246 2,743
OpenAI: GPT-5.4 9.9 10.0 100.0% 0 1.04s 222 0
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
ByteDance Seed: Seed-2.0-Mini 10.0 10.0 0.0% 0 0ms 0 0
OpenAI: GPT-5.4 4.0 7.2 44.4% 1 1.07s 50 0
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
ByteDance Seed: Seed-2.0-Mini 10.0 10.0 100.0% 0 17.47s 69 2,050
OpenAI: GPT-5.4 5.5 10.0 50.0% 0 1.07s 81 0
Puzzle Solving Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
ByteDance Seed: Seed-2.0-Mini 7.0 7.2 88.9% 1 25.85s 457 5,060
OpenAI: GPT-5.4 4.0 9.8 33.3% 0 1.52s 357 0
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
ByteDance Seed: Seed-2.0-Mini 10.0 10.0 100.0% 0 88.68s 222 5,235
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 2.75s 246 0

Быстрое сравнение

Сменить пару сравнения