Hy3 previewHy3 previewhighModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.Lançamento: 2026-04-22
Pontuação
8.0Pontuação média em todos os testes de benchmark.…
8.0Pontuação média em todos os testes de benchmark.…
Posição
#21
#22
Confiabilidade
9.8Pontuação de sucesso na primeira tentativa: 10.0 significa nenhum erro reexecutável da API alvo ou de limite de taxa antes de chamadas bem-sucedidas; falhas registradas reduzem a pontuação.…
10.0Pontuação de sucesso na primeira tentativa: 10.0 significa nenhum erro reexecutável da API alvo ou de limite de taxa antes de chamadas bem-sucedidas; falhas registradas reduzem a pontuação.…
Consistência
9.1A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
9.5A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
Testes corretos
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Não seguiu as instruções: 1Tempo de resposta (médio)13.22sTempo de resposta (máx.)45.02sTempo de resposta (total)224.66sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Erro de API: 1Tempo de resposta (médio)56.77sTempo de resposta (máx.)149.94sTempo de resposta (total)851.49sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
Taxa de acerto por tentativa
74.5%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
77.1%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
Testes instáveis
2Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Execuções totais
57Execuções totais…
57Execuções totais…
Custo por resultado
0.959Mostra o custo médio por resposta correta no benchmark, em centavos (quanto menor, melhor).…
0.000Mostra o custo médio por resposta correta no benchmark, em centavos (quanto menor, melhor).…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.02sTempo de resposta (máx.)8.79sTempo de resposta (total)24.07sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
6.02sTempo de resposta (médio)…
1,154Tokens de saída…
12,385Tokens de raciocínio…
Hy3 previewModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
8.9Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)15.12sTempo de resposta (máx.)19.99sTempo de resposta (total)45.37sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)32.58sTempo de resposta (máx.)32.58sTempo de resposta (total)32.58sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
32.58sTempo de resposta (médio)…
3,294Tokens de saída…
15,116Tokens de raciocínio…
Hy3 previewModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)99.76sTempo de resposta (máx.)99.76sTempo de resposta (total)99.76sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
0.0Pontuação média em todos os testes de benchmark.…
0.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0msUm teste é totalmente aprovado apenas quando todas as execuções passam.…
0msTempo de resposta (médio)…
0Tokens de saída…
0Tokens de raciocínio…
Hy3 previewModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)113.09sTempo de resposta (máx.)113.09sTempo de resposta (total)113.09sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)12.99sTempo de resposta (máx.)13.75sTempo de resposta (total)25.99sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
12.99sTempo de resposta (médio)…
2,591Tokens de saída…
9,968Tokens de raciocínio…
Hy3 previewModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
6.5Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
50.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)12.11sTempo de resposta (máx.)12.11sTempo de resposta (total)12.11sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
5.3Pontuação média em todos os testes de benchmark.…
7.2A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
44.4%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)22.50sTempo de resposta (máx.)45.02sTempo de resposta (total)67.51sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
22.50sTempo de resposta (médio)…
6,193Tokens de saída…
39,116Tokens de raciocínio…
Hy3 previewModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
5.3Pontuação média em todos os testes de benchmark.…
7.2A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
44.4%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)109.04sTempo de resposta (máx.)149.94sTempo de resposta (total)327.11sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
4.4Pontuação média em todos os testes de benchmark.…
9.9A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)8.66sTempo de resposta (máx.)8.66sTempo de resposta (total)8.66sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
8.66sTempo de resposta (médio)…
129Tokens de saída…
4,569Tokens de raciocínio…
Hy3 previewModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
0.0Pontuação média em todos os testes de benchmark.…
0.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0msUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.50sTempo de resposta (máx.)10.22sTempo de resposta (total)15.00sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
7.50sTempo de resposta (médio)…
219Tokens de saída…
7,404Tokens de raciocínio…
Hy3 previewModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
9.9Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)34.02sTempo de resposta (máx.)41.83sTempo de resposta (total)68.04sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
7.9Pontuação média em todos os testes de benchmark.…
7.5A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
77.8%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)5.98sTempo de resposta (máx.)8.42sTempo de resposta (total)17.95sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
5.98sTempo de resposta (médio)…
676Tokens de saída…
9,447Tokens de raciocínio…
Hy3 previewModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)29.74sTempo de resposta (máx.)45.06sTempo de resposta (total)59.48sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
0.0Pontuação média em todos os testes de benchmark.…
0.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0msUm teste é totalmente aprovado apenas quando todas as execuções passam.…
0msTempo de resposta (médio)…
0Tokens de saída…
0Tokens de raciocínio…
Hy3 previewModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)78.83sTempo de resposta (máx.)78.83sTempo de resposta (total)78.83sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)32.90sTempo de resposta (máx.)32.90sTempo de resposta (total)32.90sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
32.90sTempo de resposta (médio)…
762Tokens de saída…
10,326Tokens de raciocínio…
Hy3 previewModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
3.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)47.71sTempo de resposta (máx.)47.71sTempo de resposta (total)47.71sUm teste é totalmente aprovado apenas quando todas as execuções passam.…