AI BENCHY Compare

HY3 Preview vs Grok 4.20 Beta

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-04-26

Метрика	HY3 Preview HY3 Preview high Релиз: 2026-04-22 Бесплатно доступно	Grok 4.20 Beta Grok 4.20 Beta none Релиз: 2026-03-12

Метрика	HY3 Preview HY3 Preview high Релиз: 2026-04-22 Бесплатно доступно	Grok 4.20 Beta Grok 4.20 Beta none Релиз: 2026-03-12
Оценка	8.5	5.3
Ранг	#11	#93
Надежность	Н/Д	Н/Д
Стабильность	8.8	9.2
Тестов верно
Доля успешных попыток	81.5%	29.6%
Нестабильные тесты	3	2
Всего запусков	50	52
Стоимость за результат	0.000	2.255
Общая стоимость	$0.000	$0.091
???? ?????	$0.000 / 1M	$0.000 / 1M
???? ??????	$0.000 / 1M	$0.000 / 1M
Выходные токены	238,920	1,591
Токены рассуждений	0	0
Время ответа (среднее)	55.19s	1.19s
Время ответа (макс.)	149.94s	6.48s
Время ответа (суммарно)	938.23s	21.37s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	10.0	10.0	100.0%	0		32.69s	26,550	0
Grok 4.20 Beta	4.0	8.4	16.7%	1		597ms	251	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	10.0	10.0	100.0%	0		99.76s	38,167	0
Grok 4.20 Beta	5.5	10.0	0.0%	0		1.14s	74	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	10.0	10.0	100.0%	0		113.09s	31,319	0
Grok 4.20 Beta	3.0	10.0	0.0%	0		6.48s	282	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	6.5	10.0	50.0%	0		12.11s	4,323	0
Grok 4.20 Beta	10.0	10.0	100.0%	0		601ms	197	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	5.3	7.2	44.4%	1		109.04s	87,559	0
Grok 4.20 Beta	3.0	10.0	0.0%	0		611ms	160	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	10.0	10.0	100.0%	0		24.31s	5,490	0
Grok 4.20 Beta	5.0	10.0	0.0%	0		541ms	87	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	8.5	6.8	83.3%	1		34.02s	13,331	0
Grok 4.20 Beta	4.8	10.0	0.0%	0		687ms	60	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	9.0	7.9	88.9%	1		28.07s	21,811	0
Grok 4.20 Beta	5.9	7.2	55.6%	1		541ms	291	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
HY3 Preview	10.0	10.0	100.0%	0		78.83s	10,370	0
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.79s	189	0

Быстрое сравнение

Сменить пару сравнения

Qwen3.5 Plus 2026-02-15mediumvsHY3 PreviewhighБесплатно доступно Qwen3.6 Plus PreviewmediumБесплатно доступноvsHY3 PreviewhighБесплатно доступно Qwen3.5-27BmediumvsHY3 PreviewhighБесплатно доступно GPT-5.3-CodexmediumvsHY3 PreviewhighБесплатно доступно Gemini 3 PRO PreviewmediumvsHY3 PreviewhighБесплатно доступно Seed-2.0-LitemediumvsHY3 PreviewhighБесплатно доступно HY3 PreviewhighБесплатно доступноvsGLM 5medium Gemma 4 31BmediumБесплатно доступноvsHY3 PreviewhighБесплатно доступно Gemini 2.5 FlashmediumvsHY3 PreviewhighБесплатно доступно GPT-5.4mediumvsHY3 PreviewhighБесплатно доступно Gemini 3.1 Flash Lite PreviewmediumvsHY3 PreviewhighБесплатно доступно Gemini 3 Flash PreviewlowvsHY3 PreviewhighБесплатно доступно