Сравнить Графики Методология

Язык:

❤️ Made by XCS

AI BENCHY Compare

ByteDance Seed: Seed-2.0-Mini vs OpenAI: GPT-5.4

Сравнить:

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-06

Метрика	ByteDance Seed: Seed-2.0-Mini medium Релиз: 2026-02-14	OpenAI: GPT-5.4 none Релиз: 2026-03-05
Средний балл	7.0	4.6
Ранг	#24	#45
Тестов верно
Стабильность	9.4	8.9
Стоимость за результат	0.261	1.496
Общая стоимость	$0.027	$0.090
Доля успешных попыток	71.1%	44.4%
Нестабильные тесты	1	2
common.totalRuns	45 (15 x 3)	45 (15 x 3)
Выходные токены	1,752	1,635
Токены рассуждений	54,246	0
Время ответа (среднее)	67.46s	1.46s
Время ответа (макс.)	262.83s	2.89s
Время ответа (суммарно)	809.49s	21.86s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
ByteDance Seed: Seed-2.0-Mini	7.0	10.0	66.7%	0		98.99s	354	9,352
OpenAI: GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	100.0%	0		262.83s	404	29,806
OpenAI: GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
ByteDance Seed: Seed-2.0-Mini	9.9	10.0	100.0%	0		24.27s	246	2,743
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	0.0%	0		0ms	0	0
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	100.0%	0		17.47s	69	2,050
OpenAI: GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
ByteDance Seed: Seed-2.0-Mini	7.0	7.2	88.9%	1		25.85s	457	5,060
OpenAI: GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	100.0%	0		88.68s	222	5,235
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0

Быстрое сравнение

Сменить пару сравнения

Seed-2.0-MinimediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6nonevsSeed-2.0-Minimedium MiniMax M2.5mediumvsGPT-5.4none Seed-2.0-MinimediumvsGemini 3.1 Flash Lite Previewnone Seed-2.0-MinimediumvsGPT-5.3 Chatnone Seed-2.0-MinimediumvsQwen3.5 Plus 2026-02-15none Seed-2.0-MinimediumvsGemini 3.1 Flash Lite Previewlow Seed-2.0-MinimediumvsGPT-5.2 Chatnone Mercury 2mediumvsGPT-5.4none Seed-2.0-MinimediumvsGemini 3.1 Flash Lite Previewhigh Seed-2.0-MinimediumvsGemini 3 Flash Previewlow Seed-2.0-MinimediumvsGLM 5none