AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Qwen: Qwen3.7 Max

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-22

Метрика	Seed-2.0-Lite Seed-2.0-Lite medium Релиз: 2026-02-14	Qwen3.7 Max Qwen3.7 Max medium Релиз: 2026-05-22

Метрика	Seed-2.0-Lite Seed-2.0-Lite medium Релиз: 2026-02-14	Qwen3.7 Max Qwen3.7 Max medium Релиз: 2026-05-22
Оценка	8.1	9.0
Ранг	#21	#5
Надежность	10.0	10.0
Стабильность	8.9	9.6
Тестов верно
Доля успешных попыток	75.0%	88.3%
Нестабильные тесты	3	1
Всего запусков	60	60
Стоимость за результат	1.170	5.540
Общая стоимость	$0.153	$0.942
???? ?????	$0.250 / 1M	$2.500 / 1M
???? ??????	$2.000 / 1M	$7.500 / 1M
Выходные токены	3,282	2,109
Токены рассуждений	67,287	110,285
Время ответа (среднее)	36.79s	13.83s
Время ответа (макс.)	168.71s	33.37s
Время ответа (суммарно)	735.86s	276.53s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	8.3	10.0	75.0%	0		17.99s	996	7,142
Qwen3.7 Max	10.0	10.0	100.0%	0		6.36s	222	8,742

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	7.0	9.7	50.0%	0		107.65s	452	20,524
Qwen3.7 Max	10.0	10.0	100.0%	0		22.98s	403	22,134

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	10.0	10.0	100.0%	0		37.67s	506	4,299
Qwen3.7 Max	10.0	10.0	100.0%	0		19.60s	366	8,405

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	10.0	10.0	100.0%	0		9.07s	246	1,742
Qwen3.7 Max	10.0	10.0	100.0%	0		8.80s	270	6,254

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	5.9	7.2	55.6%	1		88.74s	15	23,897
Qwen3.7 Max	5.9	7.2	55.6%	1		24.94s	61	31,793

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	6.7	3.6	66.7%	1		18.25s	304	1,620
Qwen3.7 Max	10.0	10.0	100.0%	0		11.70s	135	4,457

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	10.0	10.0	100.0%	0		7.26s	71	1,480
Qwen3.7 Max	10.0	10.0	100.0%	0		7.46s	102	5,452

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	9.0	7.9	88.9%	1		11.03s	461	3,532
Qwen3.7 Max	10.0	10.0	100.0%	0		8.84s	259	8,908

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	10.0	10.0	100.0%	0		12.38s	222	1,011
Qwen3.7 Max	10.0	10.0	100.0%	0		6.63s	267	1,220

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	3.0	10.0	0.0%	0		48.32s	9	2,040
Qwen3.7 Max	3.0	10.0	0.0%	0		33.37s	24	12,920

Быстрое сравнение

Сменить пару сравнения

GPT-5.5lowvsQwen3.7 Maxmedium Gemini 3.5 FlashnonevsQwen3.7 Maxmedium Seed-2.0-LitemediumvsGemini 3.5 Flashminimal Seed-2.0-LitemediumvsQwen3.7 Maxnone Gemini 3.5 FlashlowvsQwen3.7 Maxmedium Gemini 3 Flash PreviewlowvsQwen3.7 Maxmedium Seed-2.0-LitemediumvsGemini 3 Flash Previewnone Seed-2.0-LitemediumvsGemini 3.1 Flash Lite Previewlow Seed-2.0-LitemediumvsGPT-5.2 Chatnone Seed-2.0-LitemediumvsGemini 3 Flash Previewlow Seed-2.0-LitemediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.5 FlashhighvsQwen3.7 Maxmedium