7.5Pontuação média em todos os testes de benchmark.…
8.4Pontuação média em todos os testes de benchmark.…
Posição
#48
#14
Confiabilidade
9.8Pontuação de sucesso na primeira tentativa: 10.0 significa nenhum erro reexecutável da API alvo ou de limite de taxa antes de chamadas bem-sucedidas; falhas registradas reduzem a pontuação.…
10.0Pontuação de sucesso na primeira tentativa: 10.0 significa nenhum erro reexecutável da API alvo ou de limite de taxa antes de chamadas bem-sucedidas; falhas registradas reduzem a pontuação.…
Consistência
8.1A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
9.2A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
Testes corretos
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 3Resposta incorreta: 3Sem resposta: 1Tempo de resposta (médio)61.96sTempo de resposta (máx.)149.23sTempo de resposta (total)1115.31sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 5Tempo de resposta (médio)58.41sTempo de resposta (máx.)238.07sTempo de resposta (total)1168.27sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
Taxa de acerto por tentativa
74.1%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
80.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
Testes instáveis
4Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
2Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Execuções totais
54Execuções totais…
60Execuções totais…
Custo por resultado
18.579Mostra o custo médio por resposta correta no benchmark, em centavos (quanto menor, melhor).…
6.906Mostra o custo médio por resposta correta no benchmark, em centavos (quanto menor, melhor).…
Custo total
$2.044Custo total…
$1.036Custo total…
Preço de entrada
$0.250 / 1MPreço de entrada…
$1.040 / 1MPreço de entrada…
Preço de saída
$1.500 / 1MPreço de saída…
$6.240 / 1MPreço de saída…
Tokens de saída
1,984Tokens de saída…
2,225Tokens de saída…
Tokens de raciocínio
1,355,583Tokens de raciocínio…
130,808Tokens de raciocínio…
Tempo de resposta (médio)
61.96sTempo de resposta (médio)…
58.41sTempo de resposta (médio)…
Tempo de resposta (máx.)
149.23sTempo de resposta (máx.)…
238.07sTempo de resposta (máx.)…
Tempo de resposta (total)
1115.31sTempo de resposta (total)…
1168.27sTempo de resposta (total)…
Melhores modelos por pontuação
Pontuação vs custo total
Tempo de resposta (médio)
Pontuação vs Tempo de resposta (médio)
Total de tokens de saída
Pontuação vs Total de tokens de saída
Detalhamento por categoria
Truques anti-IA
Pontuação
Consistência
Taxa de acerto por tentativa
Testes instáveis
Testes corretos
Tempo de resposta (médio)
Tokens de saída
Tokens de raciocínio
Gemini 3.1 Flash LiteModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
9.4Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)37.16sTempo de resposta (máx.)140.53sTempo de resposta (total)148.65sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)22.13sTempo de resposta (máx.)28.70sTempo de resposta (total)88.50sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
22.13sTempo de resposta (médio)…
228Tokens de saída…
10,075Tokens de raciocínio…
Programação
Pontuação
Consistência
Taxa de acerto por tentativa
Testes instáveis
Testes corretos
Tempo de resposta (médio)
Tokens de saída
Tokens de raciocínio
Gemini 3.1 Flash LiteModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)137.63sTempo de resposta (máx.)137.63sTempo de resposta (total)137.63sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
8.2Pontuação média em todos os testes de benchmark.…
6.7A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
83.3%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)177.97sTempo de resposta (máx.)238.07sTempo de resposta (total)355.94sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
177.97sTempo de resposta (médio)…
407Tokens de saída…
39,442Tokens de raciocínio…
Combinado
Pontuação
Consistência
Taxa de acerto por tentativa
Testes instáveis
Testes corretos
Tempo de resposta (médio)
Tokens de saída
Tokens de raciocínio
Gemini 3.1 Flash LiteModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)149.23sTempo de resposta (máx.)149.23sTempo de resposta (total)149.23sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)121.49sTempo de resposta (máx.)121.49sTempo de resposta (total)121.49sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
121.49sTempo de resposta (médio)…
390Tokens de saída…
14,575Tokens de raciocínio…
Análise e extração de dados
Pontuação
Consistência
Taxa de acerto por tentativa
Testes instáveis
Testes corretos
Tempo de resposta (médio)
Tokens de saída
Tokens de raciocínio
Gemini 3.1 Flash LiteModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.49sTempo de resposta (máx.)4.96sTempo de resposta (total)8.98sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)41.15sTempo de resposta (máx.)48.02sTempo de resposta (total)82.30sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
41.15sTempo de resposta (médio)…
270Tokens de saída…
10,106Tokens de raciocínio…
Específico do domínio
Pontuação
Consistência
Taxa de acerto por tentativa
Testes instáveis
Testes corretos
Tempo de resposta (médio)
Tokens de saída
Tokens de raciocínio
Gemini 3.1 Flash LiteModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
3.6Pontuação média em todos os testes de benchmark.…
7.2A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
22.2%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)139.90sTempo de resposta (máx.)141.40sTempo de resposta (total)419.69sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
2.9Pontuação média em todos os testes de benchmark.…
7.2A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
11.1%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)95.91sTempo de resposta (máx.)186.74sTempo de resposta (total)287.73sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
95.91sTempo de resposta (médio)…
60Tokens de saída…
30,371Tokens de raciocínio…
Inteligência geral
Pontuação
Consistência
Taxa de acerto por tentativa
Testes instáveis
Testes corretos
Tempo de resposta (médio)
Tokens de saída
Tokens de raciocínio
Gemini 3.1 Flash LiteModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
5.0Pontuação média em todos os testes de benchmark.…
2.1A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
66.7%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)45.69sTempo de resposta (máx.)45.69sTempo de resposta (total)45.69sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)32.24sTempo de resposta (máx.)32.24sTempo de resposta (total)32.24sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
32.24sTempo de resposta (médio)…
129Tokens de saída…
3,510Tokens de raciocínio…
Seguimento de instruções
Pontuação
Consistência
Taxa de acerto por tentativa
Testes instáveis
Testes corretos
Tempo de resposta (médio)
Tokens de saída
Tokens de raciocínio
Gemini 3.1 Flash LiteModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
7.3Pontuação média em todos os testes de benchmark.…
5.8A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
83.3%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem resposta: 1Tempo de resposta (médio)23.26sTempo de resposta (máx.)43.87sTempo de resposta (total)46.51sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)24.31sTempo de resposta (máx.)27.94sTempo de resposta (total)48.63sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
24.31sTempo de resposta (médio)…
103Tokens de saída…
5,848Tokens de raciocínio…
Resolução de quebra-cabeças
Pontuação
Consistência
Taxa de acerto por tentativa
Testes instáveis
Testes corretos
Tempo de resposta (médio)
Tokens de saída
Tokens de raciocínio
Gemini 3.1 Flash LiteModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
5.7Pontuação média em todos os testes de benchmark.…
6.8A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
44.4%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 2Tempo de resposta (médio)50.83sTempo de resposta (máx.)144.85sTempo de resposta (total)152.49sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)24.19sTempo de resposta (máx.)37.68sTempo de resposta (total)72.57sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
24.19sTempo de resposta (médio)…
301Tokens de saída…
7,649Tokens de raciocínio…
Chamada de ferramentas
Pontuação
Consistência
Taxa de acerto por tentativa
Testes instáveis
Testes corretos
Tempo de resposta (médio)
Tokens de saída
Tokens de raciocínio
Gemini 3.1 Flash LiteModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.44sTempo de resposta (máx.)6.44sTempo de resposta (total)6.44sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)18.32sTempo de resposta (máx.)18.32sTempo de resposta (total)18.32sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
18.32sTempo de resposta (médio)…
309Tokens de saída…
1,571Tokens de raciocínio…
Conhecimentos gerais
Pontuação
Consistência
Taxa de acerto por tentativa
Testes instáveis
Testes corretos
Tempo de resposta (médio)
Tokens de saída
Tokens de raciocínio
Gemini 3.1 Flash LiteModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
3.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)60.56sTempo de resposta (máx.)60.56sTempo de resposta (total)60.56sUm teste é totalmente aprovado apenas quando todas as execuções passam.…