AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Qwen: Qwen3.5-27B

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-15

Метрика	Seed-2.0-Lite Seed-2.0-Lite medium Релиз: 2026-02-14	Qwen3.5-27B Qwen3.5-27B medium Релиз: 2026-02-24

Метрика	Seed-2.0-Lite Seed-2.0-Lite medium Релиз: 2026-02-14	Qwen3.5-27B Qwen3.5-27B medium Релиз: 2026-02-24
Ранг	#3	#8
Оценка	8.8	8.6
Стабильность	8.7	9.1
Стоимость за результат	0.870	3.585
Общая стоимость	$0.105	$0.431
Тестов верно
Доля успешных попыток	87.5%	81.3%
Нестабильные тесты	3	2
Всего запусков	48	48
Выходные токены	2,815	1,658
Токены рассуждений	44,618	200,786
Время ответа (среднее)	29.39s	52.13s
Время ответа (макс.)	168.71s	163.96s
Время ответа (суммарно)	470.29s	834.16s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	10.0	10.0	100.0%	0		23.34s	990	7,037
Qwen3.5-27B	10.0	10.0	100.0%	0		9.69s	102	8,956

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	10.0	10.0	100.0%	0		37.67s	506	4,299
Qwen3.5-27B	10.0	10.0	100.0%	0		163.96s	483	9,991

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	10.0	10.0	100.0%	0		9.07s	246	1,742
Qwen3.5-27B	10.0	10.0	100.0%	0		30.26s	270	16,150

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	5.9	7.2	55.6%	1		88.74s	15	23,897
Qwen3.5-27B	5.3	10.0	33.3%	0		79.53s	43	52,368

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	6.7	3.6	66.7%	1		18.25s	304	1,620
Qwen3.5-27B	6.1	3.1	66.7%	1		101.41s	70	23,147

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	10.0	10.0	100.0%	0		7.26s	71	1,480
Qwen3.5-27B	10.0	10.0	100.0%	0		19.66s	97	11,638

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	9.0	7.9	88.9%	1		11.03s	461	3,532
Qwen3.5-27B	8.2	7.7	77.8%	1		64.61s	245	77,213

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	10.0	10.0	100.0%	0		12.38s	222	1,011
Qwen3.5-27B	10.0	10.0	100.0%	0		7.45s	348	1,323

Быстрое сравнение

Сменить пару сравнения

Gemini 3 Flash PreviewlowvsQwen3.5-27Bmedium Seed-2.0-LitemediumvsGemini 3 Flash Previewlow GPT-5.2 ChatnonevsQwen3.5-27Bmedium Gemini 3 Flash PreviewnonevsQwen3.5-27Bmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-27Bmedium GPT-5.3 ChatnonevsQwen3.5-27Bmedium Seed-2.0-LitemediumvsGPT-5.2 Chatnone Seed-2.0-LitemediumvsGemini 3 Flash Previewnone Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-27Bmedium Seed-2.0-LitemediumvsGemini 3.1 Flash Lite Previewlow Seed-2.0-LitemediumvsGPT-5.3 Chatnone Claude Sonnet 4.6nonevsQwen3.5-27Bmedium