AI BENCHY Compare

ByteDance Seed: Seed-2.0-Mini vs xAI: Grok Build 0.1

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-22

Метрика	Seed-2.0-Mini Seed-2.0-Mini medium Релиз: 2026-02-14	Grok Build 0.1 Grok Build 0.1 none Релиз: 2026-05-21

Метрика	Seed-2.0-Mini Seed-2.0-Mini medium Релиз: 2026-02-14	Grok Build 0.1 Grok Build 0.1 none Релиз: 2026-05-21
Оценка	7.1	6.6
Ранг	#68	#82
Надежность	5.0	10.0
Стабильность	9.2	8.0
Тестов верно
Доля успешных попыток	60.0%	60.4%
Нестабильные тесты	2	4
Всего запусков	60	57
Стоимость за результат	0.394	7.805
Общая стоимость	$0.044	$0.547
???? ?????	$0.100 / 1M	$1.000 / 1M
???? ??????	$0.400 / 1M	$2.000 / 1M
Выходные токены	2,485	267,275
Токены рассуждений	95,367	0
Время ответа (среднее)	79.17s	28.69s
Время ответа (макс.)	262.83s	138.35s
Время ответа (суммарно)	1345.89s	459.00s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Mini	6.6	10.0	50.0%	0		74.75s	360	9,520
Grok Build 0.1	8.7	7.9	91.7%	1		6.30s	11,162	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Mini	6.8	9.8	50.0%	0		220.48s	464	34,964
Grok Build 0.1	10.0	10.0	100.0%	0		21.41s	16,568	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Mini	10.0	10.0	100.0%	0		262.83s	404	29,806
Grok Build 0.1	0.0	0.0	0.0%	0		0ms	0	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Mini	10.0	10.0	100.0%	0		24.27s	246	2,743
Grok Build 0.1	4.7	1.6	66.7%	1		9.33s	6,359	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Mini	3.0	10.0	0.0%	0		0ms	0	0
Grok Build 0.1	3.6	7.2	22.2%	1		103.71s	179,469	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Mini	5.1	3.4	33.3%	1		36.65s	213	4,210
Grok Build 0.1	4.3	10.0	0.0%	0		12.47s	6,647	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Mini	10.0	10.0	100.0%	0		17.47s	69	2,050
Grok Build 0.1	9.8	10.0	100.0%	0		7.36s	8,970	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Mini	8.2	7.2	88.9%	1		25.85s	457	5,060
Grok Build 0.1	6.4	7.7	55.6%	1		9.55s	14,982	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Mini	10.0	10.0	100.0%	0		88.68s	222	5,235
Grok Build 0.1	0.0	0.0	0.0%	0		0ms	0	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Mini	3.0	10.0	0.0%	0		56.76s	50	1,779
Grok Build 0.1	3.0	10.0	0.0%	0		36.09s	23,118	0

Быстрое сравнение

Сменить пару сравнения

Claude Sonnet 4.6nonevsSeed-2.0-Minimedium Qwen3.6 27BmediumvsGrok Build 0.1none DeepSeek V4 ProhighvsGrok Build 0.1none Seed-2.0-MinimediumvsQwen3.6 Max Previewnone Kimi K2.5mediumvsGrok Build 0.1none Gemini 3.1 Flash LiteminimalvsGrok Build 0.1none Seed-2.0-MinimediumvsRing-2.6-1Tnone GPT-5 MinimediumvsGrok Build 0.1none Grok Build 0.1nonevsMiMo-V2-Omnimedium Seed-2.0-MinimediumvsDeepSeek V4 FlashhighБесплатно доступно Seed-2.0-MinimediumvsGemma 4 31BnoneБесплатно доступно Seed-2.0-MinimediumvsGPT-5.3 Chatnone