Навигация
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Qwen: Qwen3.5 Plus 2026-02-15

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-12

Метрика Seed-2.0-Lite Seed-2.0-Lite medium Релиз: 2026-02-14 Qwen3.5 Plus 2026-02-15 Qwen3.5 Plus 2026-02-15 none Релиз: 2026-02-15
Ранг #3 #31
Средний балл 8.5 6.2
Стабильность 8.7 9.6
Стоимость за результат 0.870 0.172
Общая стоимость $0.105 $0.016
Тестов верно
Доля успешных попыток 87.5% 58.3%
Нестабильные тесты 3 1
Всего запусков 48 48
Выходные токены 2,815 2,015
Токены рассуждений 44,618 0
Время ответа (среднее) 29.39s 2.65s
Время ответа (макс.) 168.71s 6.65s
Время ответа (суммарно) 470.29s 26.52s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Общее число выходных токенов

Средний балл vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Seed-2.0-Lite 10.0 10.0 100.0% 0 23.34s 990 7,037
Qwen3.5 Plus 2026-02-15 4.0 10.0 33.3% 0 2.74s 514 0
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Seed-2.0-Lite 10.0 10.0 100.0% 0 37.67s 506 4,299
Qwen3.5 Plus 2026-02-15 10.0 10.0 0.0% 0 6.65s 314 0
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Seed-2.0-Lite 9.9 10.0 100.0% 0 9.07s 246 1,742
Qwen3.5 Plus 2026-02-15 9.9 10.0 100.0% 0 1.89s 243 0
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Seed-2.0-Lite 4.0 7.2 55.6% 1 88.74s 15 23,897
Qwen3.5 Plus 2026-02-15 4.0 10.0 33.3% 0 1.17s 17 0
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Seed-2.0-Lite 7.0 3.6 66.7% 1 18.25s 304 1,620
Qwen3.5 Plus 2026-02-15 4.0 3.0 33.3% 1 2.26s 117 0
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Seed-2.0-Lite 10.0 10.0 100.0% 0 7.26s 71 1,480
Qwen3.5 Plus 2026-02-15 10.0 10.0 100.0% 0 1.67s 72 0
Puzzle Solving Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Seed-2.0-Lite 9.3 7.9 88.9% 1 11.03s 461 3,532
Qwen3.5 Plus 2026-02-15 7.0 10.0 66.7% 0 2.82s 516 0
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Seed-2.0-Lite 10.0 10.0 100.0% 0 12.38s 222 1,011
Qwen3.5 Plus 2026-02-15 10.0 10.0 100.0% 0 3.33s 222 0

Быстрое сравнение

Сменить пару сравнения