AI BENCHY Compare

HY3 Preview vs Grok 4.20 Beta

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-04-26

Метрика	HY3 Preview HY3 Preview high Релиз: 2026-04-22 Бесплатно доступно	Grok 4.20 Beta Grok 4.20 Beta medium Релиз: 2026-03-12

Метрика	HY3 Preview HY3 Preview high Релиз: 2026-04-22 Бесплатно доступно	Grok 4.20 Beta Grok 4.20 Beta medium Релиз: 2026-03-12
Оценка	8.5	8.0
Ранг	#11	#31
Надежность	Н/Д	Н/Д
Стабильность	8.8	9.1
Тестов верно
Доля успешных попыток	81.5%	74.1%
Нестабильные тесты	3	2
Всего запусков	50	52
Стоимость за результат	0.000	5.269
Общая стоимость	$0.000	$0.633
???? ?????	$0.000 / 1M	$0.000 / 1M
???? ??????	$0.000 / 1M	$0.000 / 1M
Выходные токены	238,920	1,568
Токены рассуждений	0	91,909
Время ответа (среднее)	55.19s	9.81s
Время ответа (макс.)	149.94s	31.36s
Время ответа (суммарно)	938.23s	176.62s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	10.0	10.0	100.0%	0		32.69s	26,550	0
Grok 4.20 Beta	8.7	7.9	91.7%	1		3.16s	268	7,583

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	10.0	10.0	100.0%	0		99.76s	38,167	0
Grok 4.20 Beta	10.0	10.0	100.0%	0		31.36s	81	3,987

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	10.0	10.0	100.0%	0		113.09s	31,319	0
Grok 4.20 Beta	10.0	10.0	100.0%	0		20.93s	227	12,212

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	6.5	10.0	50.0%	0		12.11s	4,323	0
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.01s	180	5,281

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	5.3	7.2	44.4%	1		109.04s	87,559	0
Grok 4.20 Beta	5.3	10.0	33.3%	0		21.33s	251	40,255

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	10.0	10.0	100.0%	0		24.31s	5,490	0
Grok 4.20 Beta	10.0	10.0	100.0%	0		5.78s	72	3,440

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	8.5	6.8	83.3%	1		34.02s	13,331	0
Grok 4.20 Beta	8.3	10.0	50.0%	0		4.97s	57	7,107

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	9.0	7.9	88.9%	1		28.07s	21,811	0
Grok 4.20 Beta	8.2	7.2	88.9%	1		3.85s	249	6,660

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	10.0	10.0	100.0%	0		78.83s	10,370	0
Grok 4.20 Beta	3.0	10.0	0.0%	0		12.39s	183	5,384

Быстрое сравнение

Сменить пару сравнения

Qwen3.5 Plus 2026-02-15mediumvsHY3 PreviewhighБесплатно доступно Qwen3.6 Plus PreviewmediumБесплатно доступноvsHY3 PreviewhighБесплатно доступно Qwen3.5-27BmediumvsHY3 PreviewhighБесплатно доступно GPT-5.3-CodexmediumvsHY3 PreviewhighБесплатно доступно Gemini 3 PRO PreviewmediumvsHY3 PreviewhighБесплатно доступно Seed-2.0-LitemediumvsHY3 PreviewhighБесплатно доступно HY3 PreviewhighБесплатно доступноvsGLM 5medium Gemma 4 31BmediumБесплатно доступноvsHY3 PreviewhighБесплатно доступно Gemini 2.5 FlashmediumvsHY3 PreviewhighБесплатно доступно GPT-5.4mediumvsHY3 PreviewhighБесплатно доступно Gemini 3.1 Flash Lite PreviewmediumvsHY3 PreviewhighБесплатно доступно Gemini 3 Flash PreviewlowvsHY3 PreviewhighБесплатно доступно