AI BENCHY Compare

HY3 Preview vs Grok 4.20 Multi Agent Beta

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-04-26

Метрика	HY3 Preview HY3 Preview high Релиз: 2026-04-22 Бесплатно доступно	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium Релиз: 2026-03-12

Метрика	HY3 Preview HY3 Preview high Релиз: 2026-04-22 Бесплатно доступно	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium Релиз: 2026-03-12
Оценка	8.5	6.4
Ранг	#11	#67
Надежность	Н/Д	Н/Д
Стабильность	8.8	7.4
Тестов верно
Доля успешных попыток	81.5%	57.4%
Нестабильные тесты	3	6
Всего запусков	50	52
Стоимость за результат	0.000	72.473
Общая стоимость	$0.000	$5.074
???? ?????	$0.000 / 1M	$0.000 / 1M
???? ??????	$0.000 / 1M	$0.000 / 1M
Выходные токены	238,920	299,034
Токены рассуждений	0	309,670
Время ответа (среднее)	55.19s	9.80s
Время ответа (макс.)	149.94s	35.28s
Время ответа (суммарно)	938.23s	156.75s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	10.0	10.0	100.0%	0		32.69s	26,550	0
Grok 4.20 Multi Agent Beta	6.9	5.8	75.0%	2		3.46s	33,706	33,077

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	10.0	10.0	100.0%	0		99.76s	38,167	0
Grok 4.20 Multi Agent Beta	10.0	10.0	100.0%	0		27.11s	86	13,141

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	10.0	10.0	100.0%	0		113.09s	31,319	0
Grok 4.20 Multi Agent Beta	3.0	10.0	0.0%	0		0ms	0	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	6.5	10.0	50.0%	0		12.11s	4,323	0
Grok 4.20 Multi Agent Beta	10.0	10.0	100.0%	0		5.54s	25,306	25,051

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	5.3	7.2	44.4%	1		109.04s	87,559	0
Grok 4.20 Multi Agent Beta	2.9	7.2	11.1%	1		24.67s	164,609	163,647

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	10.0	10.0	100.0%	0		24.31s	5,490	0
Grok 4.20 Multi Agent Beta	5.8	2.8	66.7%	1		6.40s	15,848	15,746

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	8.5	6.8	83.3%	1		34.02s	13,331	0
Grok 4.20 Multi Agent Beta	8.3	10.0	50.0%	0		4.63s	25,457	25,322

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	9.0	7.9	88.9%	1		28.07s	21,811	0
Grok 4.20 Multi Agent Beta	7.2	5.1	77.8%	2		5.01s	34,022	33,686

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	10.0	10.0	100.0%	0		78.83s	10,370	0
Grok 4.20 Multi Agent Beta	3.0	10.0	0.0%	0		0ms	0	0

Быстрое сравнение

Сменить пару сравнения

Qwen3.5 Plus 2026-02-15mediumvsHY3 PreviewhighБесплатно доступно Qwen3.6 Plus PreviewmediumБесплатно доступноvsHY3 PreviewhighБесплатно доступно Qwen3.5-27BmediumvsHY3 PreviewhighБесплатно доступно GPT-5.3-CodexmediumvsHY3 PreviewhighБесплатно доступно Gemini 3 PRO PreviewmediumvsHY3 PreviewhighБесплатно доступно Seed-2.0-LitemediumvsHY3 PreviewhighБесплатно доступно HY3 PreviewhighБесплатно доступноvsGLM 5medium Gemma 4 31BmediumБесплатно доступноvsHY3 PreviewhighБесплатно доступно Gemini 2.5 FlashmediumvsHY3 PreviewhighБесплатно доступно GPT-5.4mediumvsHY3 PreviewhighБесплатно доступно Gemini 3.1 Flash Lite PreviewmediumvsHY3 PreviewhighБесплатно доступно Gemini 3 Flash PreviewlowvsHY3 PreviewhighБесплатно доступно