Навигация
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

ByteDance Seed: Seed-2.0-Mini vs xAI: Grok 4.20 Beta

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-12

Метрика Seed-2.0-Mini Seed-2.0-Mini medium Релиз: 2026-02-14 Grok 4.20 Beta Grok 4.20 Beta medium Релиз: 2026-03-12
Ранг #25 #24
Средний балл 6.9 7.0
Стабильность 9.1 9.0
Стоимость за результат 0.280 5.989
Общая стоимость $0.028 $0.599
Тестов верно
Доля успешных попыток 68.8% 70.8%
Нестабильные тесты 2 2
Всего запусков 48 48
Выходные токены 1,965 1,481
Токены рассуждений 58,456 86,628
Время ответа (среднее) 65.09s 8.89s
Время ответа (макс.) 262.83s 24.21s
Время ответа (суммарно) 846.14s 142.18s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Общее число выходных токенов

Средний балл vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Seed-2.0-Mini 7.0 10.0 66.7% 0 98.99s 354 9,352
Grok 4.20 Beta 7.0 7.2 88.9% 1 3.19s 262 6,289
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Seed-2.0-Mini 10.0 10.0 100.0% 0 262.83s 404 29,806
Grok 4.20 Beta 10.0 10.0 100.0% 0 20.93s 227 12,212
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Seed-2.0-Mini 9.9 10.0 100.0% 0 24.27s 246 2,743
Grok 4.20 Beta 9.9 10.0 100.0% 0 4.01s 180 5,281
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Seed-2.0-Mini 10.0 10.0 0.0% 0 0ms 0 0
Grok 4.20 Beta 4.0 10.0 33.3% 0 21.33s 251 40,255
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Seed-2.0-Mini 6.0 3.4 33.3% 1 36.65s 213 4,210
Grok 4.20 Beta 10.0 10.0 100.0% 0 5.78s 72 3,440
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Seed-2.0-Mini 10.0 10.0 100.0% 0 17.47s 69 2,050
Grok 4.20 Beta 9.0 10.0 50.0% 0 4.97s 57 7,107
Puzzle Solving Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Seed-2.0-Mini 7.0 7.2 88.9% 1 25.85s 457 5,060
Grok 4.20 Beta 7.0 7.2 88.9% 1 3.85s 249 6,660
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Seed-2.0-Mini 10.0 10.0 100.0% 0 88.68s 222 5,235
Grok 4.20 Beta 10.0 10.0 0.0% 0 12.39s 183 5,384

Быстрое сравнение

Сменить пару сравнения