7.41Pontuação média em todos os testes de benchmark.…
7.27Pontuação média em todos os testes de benchmark.…
7.84Pontuação média em todos os testes de benchmark.…
Consistência
9.45A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
8.26A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
10.00A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
Custo por resultado
2.261Mostra o custo médio por resposta correta no benchmark, em centavos (quanto menor, melhor).…
2.835Mostra o custo médio por resposta correta no benchmark, em centavos (quanto menor, melhor).…
0.151Mostra o custo médio por resposta correta no benchmark, em centavos (quanto menor, melhor).…
Custo total
$0.227Custo total…
$0.256Custo total…
$0.016Custo total…
Testes corretos
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Não seguiu as instruções: 1Tempo de resposta (médio)7.16sTempo de resposta (máx.)38.52sTempo de resposta (total)100.19sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Não seguiu as instruções: 2Tempo de resposta (médio)5.81sTempo de resposta (máx.)18.33sTempo de resposta (total)81.36sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Não seguiu as instruções: 1Tempo de resposta (médio)2.88sTempo de resposta (máx.)9.54sTempo de resposta (total)40.39sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
Taxa de acerto por tentativa
73.8%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
73.8%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
71.4%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
Testes instáveis
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
3Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Tokens de saída
14,267Tokens de saída…
16,339Tokens de saída…
1,317Tokens de saída…
Tokens de raciocínio
0Tokens de raciocínio…
0Tokens de raciocínio…
6,126Tokens de raciocínio…
Melhores modelos por pontuação
Pontuação vs custo total
Detalhamento por categoria
Truques anti-IA
Pontuação
Consistência
Taxa de acerto por tentativa
Testes instáveis
Testes corretos
Tokens de saída
Tokens de raciocínio
OpenAI: GPT-5.2 Chat
10.00Pontuação média em todos os testes de benchmark.…
10.00A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.97sTempo de resposta (máx.)4.78sTempo de resposta (total)11.90sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
1,651Tokens de saída…
0Tokens de raciocínio…
OpenAI: GPT-5.3 Chat
7.33Pontuação média em todos os testes de benchmark.…
7.49A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
77.8%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.72sTempo de resposta (máx.)7.35sTempo de resposta (total)14.17sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3,091Tokens de saída…
0Tokens de raciocínio…
Google: Gemini 3.1 Flash Lite Preview
7.00Pontuação média em todos os testes de benchmark.…
10.00A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
66.7%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.18sTempo de resposta (máx.)3.18sTempo de resposta (total)6.53sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
456Tokens de saída…
1,224Tokens de raciocínio…
Análise e extração de dados
Pontuação
Consistência
Taxa de acerto por tentativa
Testes instáveis
Testes corretos
Tokens de saída
Tokens de raciocínio
OpenAI: GPT-5.2 Chat
9.88Pontuação média em todos os testes de benchmark.…
10.00A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.05sTempo de resposta (máx.)3.33sTempo de resposta (total)6.10sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
980Tokens de saída…
0Tokens de raciocínio…
OpenAI: GPT-5.3 Chat
9.88Pontuação média em todos os testes de benchmark.…
10.00A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.21sTempo de resposta (máx.)2.52sTempo de resposta (total)4.42sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
942Tokens de saída…
0Tokens de raciocínio…
Google: Gemini 3.1 Flash Lite Preview
9.88Pontuação média em todos os testes de benchmark.…
10.00A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.00sTempo de resposta (máx.)3.74sTempo de resposta (total)5.99sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
291Tokens de saída…
696Tokens de raciocínio…
Específico do domínio
Pontuação
Consistência
Taxa de acerto por tentativa
Testes instáveis
Testes corretos
Tokens de saída
Tokens de raciocínio
OpenAI: GPT-5.2 Chat
4.00Pontuação média em todos os testes de benchmark.…
10.00A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
33.3%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)17.78sTempo de resposta (máx.)38.52sTempo de resposta (total)53.33sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
7,810Tokens de saída…
0Tokens de raciocínio…
OpenAI: GPT-5.3 Chat
1.00Pontuação média em todos os testes de benchmark.…
4.41A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
33.3%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
2Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)13.01sTempo de resposta (máx.)18.33sTempo de resposta (total)39.04sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
8,264Tokens de saída…
0Tokens de raciocínio…
Google: Gemini 3.1 Flash Lite Preview
4.00Pontuação média em todos os testes de benchmark.…
10.00A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
33.3%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)2.36sTempo de resposta (máx.)3.51sTempo de resposta (total)7.07sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
18Tokens de saída…
1,212Tokens de raciocínio…
Seguimento de instruções
Pontuação
Consistência
Taxa de acerto por tentativa
Testes instáveis
Testes corretos
Tokens de saída
Tokens de raciocínio
OpenAI: GPT-5.2 Chat
5.50Pontuação média em todos os testes de benchmark.…
6.13A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
66.7%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)5.46sTempo de resposta (máx.)6.45sTempo de resposta (total)10.92sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
1,528Tokens de saída…
0Tokens de raciocínio…
OpenAI: GPT-5.3 Chat
8.50Pontuação média em todos os testes de benchmark.…
9.99A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
50.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)3.29sTempo de resposta (máx.)4.18sTempo de resposta (total)6.59sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
1,455Tokens de saída…
0Tokens de raciocínio…
Google: Gemini 3.1 Flash Lite Preview
8.50Pontuação média em todos os testes de benchmark.…
10.00A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
50.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.49sTempo de resposta (máx.)1.66sTempo de resposta (total)2.99sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
72Tokens de saída…
753Tokens de raciocínio…
Puzzle Solving
Pontuação
Consistência
Taxa de acerto por tentativa
Testes instáveis
Testes corretos
Tokens de saída
Tokens de raciocínio
OpenAI: GPT-5.2 Chat
7.00Pontuação média em todos os testes de benchmark.…
10.00A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
66.7%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.42sTempo de resposta (máx.)5.04sTempo de resposta (total)13.27sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
1,743Tokens de saída…
0Tokens de raciocínio…
OpenAI: GPT-5.3 Chat
10.00Pontuação média em todos os testes de benchmark.…
10.00A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.93sTempo de resposta (máx.)3.05sTempo de resposta (total)8.78sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
1,726Tokens de saída…
0Tokens de raciocínio…
Google: Gemini 3.1 Flash Lite Preview
10.00Pontuação média em todos os testes de benchmark.…
10.00A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.76sTempo de resposta (máx.)5.08sTempo de resposta (total)8.27sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
243Tokens de saída…
1,248Tokens de raciocínio…
Chamada de ferramentas
Pontuação
Consistência
Taxa de acerto por tentativa
Testes instáveis
Testes corretos
Tokens de saída
Tokens de raciocínio
OpenAI: GPT-5.2 Chat
10.00Pontuação média em todos os testes de benchmark.…
10.00A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.68sTempo de resposta (máx.)4.68sTempo de resposta (total)4.68sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
555Tokens de saída…
0Tokens de raciocínio…
OpenAI: GPT-5.3 Chat
10.00Pontuação média em todos os testes de benchmark.…
10.00A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)8.36sTempo de resposta (máx.)8.36sTempo de resposta (total)8.36sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
861Tokens de saída…
0Tokens de raciocínio…
Google: Gemini 3.1 Flash Lite Preview
10.00Pontuação média em todos os testes de benchmark.…
10.00A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.54sTempo de resposta (máx.)9.54sTempo de resposta (total)9.54sUm teste é totalmente aprovado apenas quando todas as execuções passam.…