AI BENCHY Compare

Tencent: Hy3 preview vs Grok 4.1 Fast

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-22

Метрика	Hy3 preview Hy3 preview high Релиз: 2026-04-22	Grok 4.1 Fast Grok 4.1 Fast medium Релиз: 2025-11-19

Метрика	Hy3 preview Hy3 preview high Релиз: 2026-04-22	Grok 4.1 Fast Grok 4.1 Fast medium Релиз: 2025-11-19
Оценка	8.0	6.5
Ранг	#22	#87
Надежность	10.0	10.0
Стабильность	9.5	7.3
Тестов верно
Доля успешных попыток	77.1%	61.4%
Нестабильные тесты	1	6
Всего запусков	60	57
Стоимость за результат	0.000	0.644
Общая стоимость	$0.000	$0.058
???? ?????	$0.066 / 1M	$0.000 / 1M
???? ??????	$0.260 / 1M	$0.000 / 1M
Выходные токены	216,503	2,025
Токены рассуждений	0	96,679
Время ответа (среднее)	56.77s	24.01s
Время ответа (макс.)	149.94s	121.79s
Время ответа (суммарно)	851.49s	288.18s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Hy3 preview	8.9	10.0	100.0%	0		15.12s	6,839	0
Grok 4.1 Fast	8.7	7.9	91.7%	1		3.81s	108	4,741

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Hy3 preview	10.0	10.0	100.0%	0		99.76s	38,167	0
Grok 4.1 Fast	2.3	1.1	33.3%	1		23.58s	821	6,703

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Hy3 preview	10.0	10.0	100.0%	0		113.09s	31,319	0
Grok 4.1 Fast	10.0	10.0	100.0%	0		37.64s	261	12,272

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Hy3 preview	6.5	10.0	50.0%	0		12.11s	4,323	0
Grok 4.1 Fast	10.0	10.0	100.0%	0		6.63s	180	5,409

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Hy3 preview	5.3	7.2	44.4%	1		109.04s	87,559	0
Grok 4.1 Fast	5.8	4.4	66.7%	2		121.79s	11	37,657

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Hy3 preview	0.0	0.0	0.0%	0		0ms	0	0
Grok 4.1 Fast	4.2	9.9	0.0%	0		16.25s	127	3,456

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Hy3 preview	9.9	10.0	100.0%	0		34.02s	13,331	0
Grok 4.1 Fast	6.5	10.0	50.0%	0		5.30s	55	3,489

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Hy3 preview	10.0	10.0	100.0%	0		29.74s	15,503	0
Grok 4.1 Fast	5.3	7.2	44.4%	1		8.08s	187	6,086

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Hy3 preview	10.0	10.0	100.0%	0		78.83s	10,370	0
Grok 4.1 Fast	2.8	1.6	33.3%	1		27.71s	260	11,485

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Hy3 preview	3.0	10.0	0.0%	0		47.71s	9,092	0
Grok 4.1 Fast	3.0	10.0	0.0%	0		25.52s	15	5,381

Быстрое сравнение

Сменить пару сравнения

Claude Opus 4.7mediumvsGPT-5.5low GPT-5.4mediumvsQwen3.7 Maxnone GPT-5.2 ChatnonevsQwen3.5 Plus 2026-04-20medium Gemini 3.1 Flash LiteminimalvsKimi K2.5medium CobuddymediumБесплатно доступноvsOwl Alphanone GPT-5.4 NanononevsGLM 4.7 Flashmedium DeepSeek V4 FlashhighБесплатно доступноvsKimi K2.6medium Mistral Small 4mediumvsGrok 4.20none GPT-5.3 ChatnonevsMiMo-V2.5medium Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5-Promedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5 Plus 2026-04-20medium Gemini 3.1 Flash LitelowvsGLM 5.1medium