Resumo
Grok Build 0.1 marca 6.6 no AI BENCHY e fica em #82. Tem fiabilidade 10.0, taxa de acerto de 60.4%, custo total de $0.547 e tempo médio de resposta de 28.69s.
O que torna Grok Build 0.1 único: Destaca-se mais em Programação, onde fica em #1, enquanto Combinado é a área mais fraca em #13.
Modelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
6.6
Consistência
8.0
10.0
$0.547
Total de tokens de saída
267,275
Total de tokens de entrada
0
Preço de entrada
$1.000 / 1M
Preço de saída
$2.000 / 1M
Testes instáveis
4
Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).
28.69s
Tempo de resposta (máx.): 138.35s
Tempo de resposta (total): 459.00s
Histórico de execuções
| Testado em | Pontuação | Confiabilidade | Testes corretos | Custo total | Comparar |
|---|---|---|---|---|---|
| 2026-05-21 12:40 Novo teste | 6.0 | 10.0 | $0.547 | Comparar | |
| 2026-05-21 12:40 Novo teste | 6.6 | 10.0 | $0.547 | Execução atual |
Gráficos
Escolha o primeiro modelo e depois clique em um segundo modelo para abrir uma página lado a lado.
Pontuação vs Custo total
Tempo de resposta (médio)
Pontuação vs Tempo de resposta (médio)
Total de tokens de saída
Pontuação vs Total de tokens de saída
Comparação rápida
Detalhamento por categoria
| Categoria | Pontuação | Consistência | Testes corretos |
|---|---|---|---|
| Truques anti-IA | 8.7 | 7.9 | |
| Programação | 10.0 | 10.0 | |
| Combinado | 0.0 | 0.0 | |
| Análise e extração de dados | 4.7 | 1.6 | |
| Específico do domínio | 3.6 | 7.2 | |
| Inteligência geral | 4.3 | 10.0 | |
| Seguimento de instruções | 9.8 | 10.0 | |
| Resolução de quebra-cabeças | 6.4 | 7.7 | |
| Chamada de ferramentas | 0.0 | 0.0 | |
| Conhecimentos gerais | 3.0 | 10.0 |