AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Inception: Mercury 2

Сводка

Сравнение benchmark Seed-2.0-Lite vs Mercury 2: Mercury 2 лидирует по среднему баллу: 6.6 vs 5.8. Seed-2.0-Lite имеет более низкую стоимость benchmark: $0.019 vs $0.058. Mercury 2 быстрее: 2.24s vs 2.49s, с долей успешных попыток 46.0% vs 54.0%.

Рекомендуемая модель: Seed-2.0-Lite - Он дает лучший общий компромисс: конкурентный балл (5.8), ниже стоимость, чем у Mercury 2, и сбалансированное время ответа.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-10

Метрика	Seed-2.0-Lite Seed-2.0-Lite none Релиз: 2026-02-14	Mercury 2 Mercury 2 medium Релиз: 2026-02-24

Метрика	Seed-2.0-Lite Seed-2.0-Lite none Релиз: 2026-02-14	Mercury 2 Mercury 2 medium Релиз: 2026-02-24
Оценка	5.8	6.6
Ранг	#111	#82
Надежность	10.0	10.0
Стабильность	8.4	8.8
Тестов верно
Доля успешных попыток	46.0%	54.0%
Нестабильные тесты	4	3
Всего запусков	63	63
Стоимость за результат	0.228	0.578
Общая стоимость	$0.019	$0.058
Цена входа	$0.250 / 1M	$0.250 / 1M
Цена выхода	$2.000 / 1M	$0.750 / 1M
Общее число входных токенов	46,573	35,116
Выходные токены	3,259	4,048
Токены рассуждений	0	61,219
Время ответа (среднее)	2.49s	2.24s
Время ответа (макс.)	6.70s	14.63s
Время ответа (суммарно)	52.26s	44.72s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#111 Seed-2.0-Lite

none

Cost: $0.005
Time: 83.8s
Tokens: 2,311 tok

#82 Mercury 2

medium

Cost: $0.002
Time: 2.1s
Tokens: 1,702 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Seed-2.0-Lite	3.0	5.9	16.7%	2		2.43s	894	709	0
Mercury 2	6.9	9.9	50.0%	0		1.12s	554	2,546	2,609

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Seed-2.0-Lite	5.6	10.0	33.3%	0		2.83s	8,215	410	0
Mercury 2	8.2	7.7	77.8%	1		2.04s	7,065	296	11,328

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Seed-2.0-Lite	3.0	10.0	0.0%	0		6.59s	16,215	498	0
Mercury 2	10.0	10.0	100.0%	0		3.28s	12,909	268	4,887

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.82s	8,538	246	0
Mercury 2	7.3	5.9	83.3%	1		1.11s	6,234	183	1,656

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Seed-2.0-Lite	3.6	7.2	22.2%	1		1.33s	939	17	0
Mercury 2	2.9	7.2	11.1%	1		6.48s	695	41	30,754

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.45s	570	294	0
Mercury 2	4.8	10.0	0.0%	0		821ms	456	137	542

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.06s	810	73	0
Mercury 2	10.0	10.0	100.0%	0		1.07s	340	14	958

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Seed-2.0-Lite	5.3	7.2	44.4%	1		2.78s	858	709	0
Mercury 2	5.4	10.0	33.3%	0		949ms	601	361	2,781

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.94s	9,270	292	0
Mercury 2	10.0	10.0	100.0%	0		1.89s	6,080	180	1,956

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Seed-2.0-Lite	3.0	10.0	0.0%	0		1.96s	264	11	0
Mercury 2	3.0	10.0	0.0%	0		2.58s	182	22	3,748

Быстрое сравнение

Сменить пару сравнения

Seed-2.0-LitenonevsNemotron 3 SupermediumБесплатно доступно Gemma 4 31BnoneБесплатно доступноvsMercury 2medium CobuddymediumvsSeed-2.0-Litenone Claude Sonnet 4.6nonevsMercury 2medium Gemini 3.1 Flash LiteminimalvsMercury 2medium Mercury 2mediumvsQwen3.7 Plusnone Mercury 2mediumvsQwen3.6 Max Previewnone Gemini 3.1 Flash LitenonevsMercury 2medium Mercury 2mediumvsGPT-5.5none Seed-2.0-LitenonevsDeepSeek V4 Prohigh Seed-2.0-Litenonevsgpt-oss-120bmediumБесплатно доступно Mercury 2mediumvsStep 3.7 Flashhigh