AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Inception: Mercury 2

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-12

Метрика	Seed-2.0-Lite Seed-2.0-Lite none Релиз: 2026-02-14	Mercury 2 Mercury 2 medium Релиз: 2026-02-24

Метрика	Seed-2.0-Lite Seed-2.0-Lite none Релиз: 2026-02-14	Mercury 2 Mercury 2 medium Релиз: 2026-02-24
Ранг	#45	#40
Средний балл	4.9	5.3
Стабильность	7.4	8.4
Стоимость за результат	0.214	0.631
Общая стоимость	$0.015	$0.045
Тестов верно
Доля успешных попыток	56.3%	54.2%
Нестабильные тесты	5	3
Всего запусков	48	48
Выходные токены	2,743	3,708
Токены рассуждений	0	45,921
Время ответа (среднее)	2.49s	2.36s
Время ответа (макс.)	6.70s	14.63s
Время ответа (суммарно)	39.91s	35.39s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Общее число выходных токенов

Средний балл vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	10.0	4.6	22.2%	2		2.93s	703	0
Mercury 2	7.3	9.8	66.7%	0		1.30s	2,531	2,410

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	10.0	10.0	0.0%	0		6.59s	498	0
Mercury 2	10.0	10.0	100.0%	0		3.28s	268	4,887

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	9.9	10.0	100.0%	0		1.82s	246	0
Mercury 2	5.5	5.9	83.3%	1		1.11s	183	1,656

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	10.0	7.2	22.2%	1		1.33s	17	0
Mercury 2	10.0	7.2	11.1%	1		6.48s	41	30,754

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.45s	294	0
Mercury 2	4.0	10.0	0.0%	0		821ms	137	542

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.06s	73	0
Mercury 2	10.0	10.0	100.0%	0		1.07s	14	958

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	4.0	4.4	55.6%	2		2.46s	620	0
Mercury 2	1.7	7.5	22.2%	1		934ms	354	2,758

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.94s	292	0
Mercury 2	10.0	10.0	100.0%	0		1.89s	180	1,956

Быстрое сравнение

Сменить пару сравнения

Seed-2.0-LitenonevsGrok 4.20 Multi-Agent Betamedium Mercury 2mediumvsQwen3.5-Flashnone Gemini 2.5 FlashnonevsMercury 2medium Seed-2.0-Litenonevsgpt-oss-120bmediumБесплатно доступно DeepSeek V3.2nonevsMercury 2medium Seed-2.0-LitenonevsMiniMax M2.5medium Mercury 2mediumvsQwen3.5-122B-A10Bnone Mercury 2mediumvsQwen3.5-27Bnone Seed-2.0-LitenonevsQwen3.5-35B-A3Bmedium Seed-2.0-LitenonevsGPT-5 Nanomedium Mercury 2mediumvsQwen3.5-35B-A3Bnone Mercury 2mediumvsGLM 5none