AI BENCHY Compare

Tencent: Hy3 preview vs Grok 4.1 Fast

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-22

Métrica	Hy3 preview Hy3 preview high Lançamento: 2026-04-22	Grok 4.1 Fast Grok 4.1 Fast medium Lançamento: 2025-11-19

Métrica	Hy3 preview Hy3 preview high Lançamento: 2026-04-22	Grok 4.1 Fast Grok 4.1 Fast medium Lançamento: 2025-11-19
Pontuação	8.0	6.5
Posição	#22	#87
Confiabilidade	10.0	10.0
Consistência	9.5	7.3
Testes corretos
Taxa de acerto por tentativa	77.1%	61.4%
Testes instáveis	1	6
Execuções totais	60	57
Custo por resultado	0.000	0.644
Custo total	$0.000	$0.058
Preço de entrada	$0.066 / 1M	$0.000 / 1M
Preço de saída	$0.260 / 1M	$0.000 / 1M
Tokens de saída	216,503	2,025
Tokens de raciocínio	0	96,679
Tempo de resposta (médio)	56.77s	24.01s
Tempo de resposta (máx.)	149.94s	121.79s
Tempo de resposta (total)	851.49s	288.18s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Hy3 preview	8.9	10.0	100.0%	0		15.12s	6,839	0
Grok 4.1 Fast	8.7	7.9	91.7%	1		3.81s	108	4,741

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Hy3 preview	10.0	10.0	100.0%	0		99.76s	38,167	0
Grok 4.1 Fast	2.3	1.1	33.3%	1		23.58s	821	6,703

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Hy3 preview	10.0	10.0	100.0%	0		113.09s	31,319	0
Grok 4.1 Fast	10.0	10.0	100.0%	0		37.64s	261	12,272

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Hy3 preview	6.5	10.0	50.0%	0		12.11s	4,323	0
Grok 4.1 Fast	10.0	10.0	100.0%	0		6.63s	180	5,409

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Hy3 preview	5.3	7.2	44.4%	1		109.04s	87,559	0
Grok 4.1 Fast	5.8	4.4	66.7%	2		121.79s	11	37,657

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Hy3 preview	0.0	0.0	0.0%	0		0ms	0	0
Grok 4.1 Fast	4.2	9.9	0.0%	0		16.25s	127	3,456

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Hy3 preview	9.9	10.0	100.0%	0		34.02s	13,331	0
Grok 4.1 Fast	6.5	10.0	50.0%	0		5.30s	55	3,489

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Hy3 preview	10.0	10.0	100.0%	0		29.74s	15,503	0
Grok 4.1 Fast	5.3	7.2	44.4%	1		8.08s	187	6,086

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Hy3 preview	10.0	10.0	100.0%	0		78.83s	10,370	0
Grok 4.1 Fast	2.8	1.6	33.3%	1		27.71s	260	11,485

Conhecimentos gerais	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Hy3 preview	3.0	10.0	0.0%	0		47.71s	9,092	0
Grok 4.1 Fast	3.0	10.0	0.0%	0		25.52s	15	5,381

Comparação rápida

Trocar par de comparação

Claude Opus 4.7mediumvsGPT-5.5low GPT-5.4mediumvsQwen3.7 Maxnone GPT-5.2 ChatnonevsQwen3.5 Plus 2026-04-20medium Gemini 3.1 Flash LiteminimalvsKimi K2.5medium CobuddymediumDisponível grátisvsOwl Alphanone GPT-5.4 NanononevsGLM 4.7 Flashmedium DeepSeek V4 FlashhighDisponível grátisvsKimi K2.6medium Mistral Small 4mediumvsGrok 4.20none GPT-5.3 ChatnonevsMiMo-V2.5medium Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5-Promedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5 Plus 2026-04-20medium Gemini 3.1 Flash LitelowvsGLM 5.1medium