AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs Google: Gemma 4 31B

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-04-02

Метрика	Seed-2.0-Lite Seed-2.0-Lite none Релиз: 2026-02-14	Gemma 4 31B Gemma 4 31B medium Релиз: 2026-04-02

Метрика	Seed-2.0-Lite Seed-2.0-Lite none Релиз: 2026-02-14	Gemma 4 31B Gemma 4 31B medium Релиз: 2026-04-02
Оценка	6.0	8.6
Ранг	#57	#5
Стабильность	7.6	9.6
Тестов верно
Доля успешных попыток	52.9%	80.4%
Нестабильные тесты	5	1
Всего запусков	51	51
Стоимость за результат	0.215	0.109
Общая стоимость	$0.016	$0.015
???? ?????	$0.250 / 1M	$0.140 / 1M
???? ??????	$2.000 / 1M	$0.400 / 1M
Выходные токены	2,749	9,568
Токены рассуждений	0	22,501
Время ответа (среднее)	2.40s	21.81s
Время ответа (макс.)	6.70s	68.92s
Время ответа (суммарно)	40.85s	327.16s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	3.0	5.9	16.7%	2		2.43s	709	0
Gemma 4 31B	10.0	10.0	100.0%	0		12.89s	962	2,046

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	3.0	10.0	0.0%	0		6.59s	498	0
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.82s	246	0
Gemma 4 31B	10.0	10.0	100.0%	0		21.11s	1,822	2,951

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	3.6	7.2	22.2%	1		1.33s	17	0
Gemma 4 31B	7.7	10.0	66.7%	0		38.48s	4,349	8,985

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.45s	294	0
Gemma 4 31B	10.0	10.0	100.0%	0		9.57s	105	888

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.06s	73	0
Gemma 4 31B	10.0	10.0	100.0%	0		12.76s	533	2,035

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	5.2	4.4	55.6%	2		2.46s	620	0
Gemma 4 31B	8.8	7.9	88.9%	1		27.63s	1,797	5,596

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.94s	292	0
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0

Быстрое сравнение

Сменить пару сравнения

Seed-2.0-Litenonevsgpt-oss-120bmediumБесплатно доступно Seed-2.0-LitenonevsMiniMax M2.5mediumБесплатно доступно Seed-2.0-LitenonevsGrok 4.20 Multi Agent Betamedium Seed-2.0-LitenonevsGPT-5 Nanomedium Seed-2.0-LitenonevsMercury 2medium Seed-2.0-LitenonevsMistral Small 4medium Gemma 4 31BmediumvsGPT-5.2 Chatnone Seed-2.0-LitenonevsGPT-5 Minimedium Seed-2.0-LitenonevsNemotron 3 SupermediumБесплатно доступно Seed-2.0-LitenonevsGrok 4.1 Fastmedium Seed-2.0-LitenonevsMiniMax M2.7medium Seed-2.0-LitenonevsHunter Alphamedium