8.1Pontuação média em todos os testes de benchmark.…
7.5Pontuação média em todos os testes de benchmark.…
Posição
#21
#48
Confiabilidade
10.0Pontuação de sucesso na primeira tentativa: 10.0 significa nenhum erro reexecutável da API alvo ou de limite de taxa antes de chamadas bem-sucedidas; falhas registradas reduzem a pontuação.…
9.8Pontuação de sucesso na primeira tentativa: 10.0 significa nenhum erro reexecutável da API alvo ou de limite de taxa antes de chamadas bem-sucedidas; falhas registradas reduzem a pontuação.…
Consistência
8.9A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
8.1A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
Testes corretos
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 5Não seguiu as instruções: 2Tempo de resposta (médio)36.79sTempo de resposta (máx.)168.71sTempo de resposta (total)735.86sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 3Resposta incorreta: 3Sem resposta: 1Tempo de resposta (médio)61.96sTempo de resposta (máx.)149.23sTempo de resposta (total)1115.31sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
Taxa de acerto por tentativa
75.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
74.1%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
Testes instáveis
3Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
4Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Execuções totais
60Execuções totais…
54Execuções totais…
Custo por resultado
1.170Mostra o custo médio por resposta correta no benchmark, em centavos (quanto menor, melhor).…
18.579Mostra o custo médio por resposta correta no benchmark, em centavos (quanto menor, melhor).…
8.3Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
75.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)17.99sTempo de resposta (máx.)48.33sTempo de resposta (total)71.98sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
17.99sTempo de resposta (médio)…
996Tokens de saída…
7,142Tokens de raciocínio…
Gemini 3.1 Flash LiteModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
9.4Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)37.16sTempo de resposta (máx.)140.53sTempo de resposta (total)148.65sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
7.0Pontuação média em todos os testes de benchmark.…
9.7A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
50.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)107.65sTempo de resposta (máx.)140.81sTempo de resposta (total)215.30sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
107.65sTempo de resposta (médio)…
452Tokens de saída…
20,524Tokens de raciocínio…
Gemini 3.1 Flash LiteModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)137.63sTempo de resposta (máx.)137.63sTempo de resposta (total)137.63sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)37.67sTempo de resposta (máx.)37.67sTempo de resposta (total)37.67sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
37.67sTempo de resposta (médio)…
506Tokens de saída…
4,299Tokens de raciocínio…
Gemini 3.1 Flash LiteModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)149.23sTempo de resposta (máx.)149.23sTempo de resposta (total)149.23sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.07sTempo de resposta (máx.)12.19sTempo de resposta (total)18.14sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
9.07sTempo de resposta (médio)…
246Tokens de saída…
1,742Tokens de raciocínio…
Gemini 3.1 Flash LiteModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.49sTempo de resposta (máx.)4.96sTempo de resposta (total)8.98sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
5.9Pontuação média em todos os testes de benchmark.…
7.2A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
55.6%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)88.74sTempo de resposta (máx.)168.71sTempo de resposta (total)266.21sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
88.74sTempo de resposta (médio)…
15Tokens de saída…
23,897Tokens de raciocínio…
Gemini 3.1 Flash LiteModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
3.6Pontuação média em todos os testes de benchmark.…
7.2A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
22.2%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)139.90sTempo de resposta (máx.)141.40sTempo de resposta (total)419.69sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
6.7Pontuação média em todos os testes de benchmark.…
3.6A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
66.7%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)18.25sTempo de resposta (máx.)18.25sTempo de resposta (total)18.25sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
18.25sTempo de resposta (médio)…
304Tokens de saída…
1,620Tokens de raciocínio…
Gemini 3.1 Flash LiteModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
5.0Pontuação média em todos os testes de benchmark.…
2.1A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
66.7%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)45.69sTempo de resposta (máx.)45.69sTempo de resposta (total)45.69sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.26sTempo de resposta (máx.)9.02sTempo de resposta (total)14.52sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
7.26sTempo de resposta (médio)…
71Tokens de saída…
1,480Tokens de raciocínio…
Gemini 3.1 Flash LiteModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
7.3Pontuação média em todos os testes de benchmark.…
5.8A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
83.3%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem resposta: 1Tempo de resposta (médio)23.26sTempo de resposta (máx.)43.87sTempo de resposta (total)46.51sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
9.0Pontuação média em todos os testes de benchmark.…
7.9A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
88.9%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)11.03sTempo de resposta (máx.)13.85sTempo de resposta (total)33.09sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
11.03sTempo de resposta (médio)…
461Tokens de saída…
3,532Tokens de raciocínio…
Gemini 3.1 Flash LiteModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
5.7Pontuação média em todos os testes de benchmark.…
6.8A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
44.4%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 2Tempo de resposta (médio)50.83sTempo de resposta (máx.)144.85sTempo de resposta (total)152.49sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)12.38sTempo de resposta (máx.)12.38sTempo de resposta (total)12.38sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
12.38sTempo de resposta (médio)…
222Tokens de saída…
1,011Tokens de raciocínio…
Gemini 3.1 Flash LiteModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.44sTempo de resposta (máx.)6.44sTempo de resposta (total)6.44sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)48.32sTempo de resposta (máx.)48.32sTempo de resposta (total)48.32sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
48.32sTempo de resposta (médio)…
9Tokens de saída…
2,040Tokens de raciocínio…
Gemini 3.1 Flash LiteModelo arquivado: este modelo não é mais atualizado nem testado em novos testes.