82Pontuação média em todos os testes de benchmark.…
87Pontuação média em todos os testes de benchmark.…
69Pontuação média em todos os testes de benchmark.…
Consistência
89A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
90A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
78A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
Custo por resultado
6.533Mostra o custo médio por resposta correta no benchmark, em centavos (quanto menor, melhor).…
4.418Mostra o custo médio por resposta correta no benchmark, em centavos (quanto menor, melhor).…
3.057Mostra o custo médio por resposta correta no benchmark, em centavos (quanto menor, melhor).…
Custo total
$0.784Custo total…
$0.531Custo total…
$0.306Custo total…
Testes corretos
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Não seguiu as instruções: 1Tempo de resposta (médio)21.06sTempo de resposta (máx.)100.41sTempo de resposta (total)315.95sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Não seguiu as instruções: 1Tempo de resposta (médio)17.37sTempo de resposta (máx.)100.93sTempo de resposta (total)260.52sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 2Sem resposta: 1Tempo esgotado: 1Resposta incorreta: 1Tempo de resposta (médio)16.71sTempo de resposta (máx.)77.80sTempo de resposta (total)133.69sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
Taxa de acerto por tentativa
86.7%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
88.9%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
80.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
Testes instáveis
2Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
2Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
4Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Tokens de saída
1,611Tokens de saída…
1,577Tokens de saída…
2,058Tokens de saída…
Tokens de raciocínio
46,321Tokens de raciocínio…
33,017Tokens de raciocínio…
16,542Tokens de raciocínio…
Melhores modelos por pontuação
Pontuação vs custo total
Detalhamento por categoria
Truques anti-IA
Pontuação
Consistência
Taxa de acerto por tentativa
Testes instáveis
Testes corretos
Tokens de saída
Tokens de raciocínio
OpenAI: GPT-5.4
100Pontuação média em todos os testes de benchmark.…
100A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.02sTempo de resposta (máx.)6.42sTempo de resposta (total)15.06sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
216Tokens de saída…
1,466Tokens de raciocínio…
OpenAI: GPT-5.3-Codex
100Pontuação média em todos os testes de benchmark.…
100A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.69sTempo de resposta (máx.)6.68sTempo de resposta (total)14.06sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
216Tokens de saída…
1,421Tokens de raciocínio…
OpenAI: GPT-5.2
70Pontuação média em todos os testes de benchmark.…
73A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
77.8%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)14.34sTempo de resposta (máx.)14.34sTempo de resposta (total)14.34sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
549Tokens de saída…
2,002Tokens de raciocínio…
Combinado
Pontuação
Consistência
Taxa de acerto por tentativa
Testes instáveis
Testes corretos
Tokens de saída
Tokens de raciocínio
OpenAI: GPT-5.4
100Pontuação média em todos os testes de benchmark.…
100A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)20.57sTempo de resposta (máx.)20.57sTempo de resposta (total)20.57sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
301Tokens de saída…
3,543Tokens de raciocínio…
OpenAI: GPT-5.3-Codex
100Pontuação média em todos os testes de benchmark.…
100A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)19.56sTempo de resposta (máx.)19.56sTempo de resposta (total)19.56sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
364Tokens de saída…
2,731Tokens de raciocínio…
OpenAI: GPT-5.2
100Pontuação média em todos os testes de benchmark.…
100A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)14.06sTempo de resposta (máx.)14.06sTempo de resposta (total)14.06sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
291Tokens de saída…
1,757Tokens de raciocínio…
Análise e extração de dados
Pontuação
Consistência
Taxa de acerto por tentativa
Testes instáveis
Testes corretos
Tokens de saída
Tokens de raciocínio
OpenAI: GPT-5.4
99Pontuação média em todos os testes de benchmark.…
100A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.32sTempo de resposta (máx.)5.40sTempo de resposta (total)10.64sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
234Tokens de saída…
804Tokens de raciocínio…
OpenAI: GPT-5.3-Codex
99Pontuação média em todos os testes de benchmark.…
100A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.07sTempo de resposta (máx.)3.59sTempo de resposta (total)6.15sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
234Tokens de saída…
728Tokens de raciocínio…
OpenAI: GPT-5.2
99Pontuação média em todos os testes de benchmark.…
100A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.15sTempo de resposta (máx.)3.15sTempo de resposta (total)3.15sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
234Tokens de saída…
420Tokens de raciocínio…
Específico do domínio
Pontuação
Consistência
Taxa de acerto por tentativa
Testes instáveis
Testes corretos
Tokens de saída
Tokens de raciocínio
OpenAI: GPT-5.4
40Pontuação média em todos os testes de benchmark.…
72A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
44.4%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)74.27sTempo de resposta (máx.)100.41sTempo de resposta (total)222.80sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
61Tokens de saída…
34,748Tokens de raciocínio…
OpenAI: GPT-5.3-Codex
40Pontuação média em todos os testes de benchmark.…
72A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
55.6%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)64.31sTempo de resposta (máx.)100.93sTempo de resposta (total)192.94sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
64Tokens de saída…
25,308Tokens de raciocínio…
OpenAI: GPT-5.2
40Pontuação média em todos os testes de benchmark.…
72A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
55.6%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Resposta incorreta: 1Tempo de resposta (médio)77.80sTempo de resposta (máx.)77.80sTempo de resposta (total)77.80sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
42Tokens de saída…
10,342Tokens de raciocínio…
Seguimento de instruções
Pontuação
Consistência
Taxa de acerto por tentativa
Testes instáveis
Testes corretos
Tokens de saída
Tokens de raciocínio
OpenAI: GPT-5.4
100Pontuação média em todos os testes de benchmark.…
100A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.11sTempo de resposta (máx.)3.68sTempo de resposta (total)6.22sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
93Tokens de saída…
897Tokens de raciocínio…
OpenAI: GPT-5.3-Codex
100Pontuação média em todos os testes de benchmark.…
100A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.04sTempo de resposta (máx.)3.44sTempo de resposta (total)6.07sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
93Tokens de saída…
693Tokens de raciocínio…
OpenAI: GPT-5.2
95Pontuação média em todos os testes de benchmark.…
100A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.12sTempo de resposta (máx.)3.12sTempo de resposta (total)3.12sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
94Tokens de saída…
614Tokens de raciocínio…
Puzzle Solving
Pontuação
Consistência
Taxa de acerto por tentativa
Testes instáveis
Testes corretos
Tokens de saída
Tokens de raciocínio
OpenAI: GPT-5.4
70Pontuação média em todos os testes de benchmark.…
72A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
88.9%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)9.13sTempo de resposta (máx.)18.14sTempo de resposta (total)27.39sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
442Tokens de saída…
3,832Tokens de raciocínio…
OpenAI: GPT-5.3-Codex
93Pontuação média em todos os testes de benchmark.…
79A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
88.9%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)5.12sTempo de resposta (máx.)8.73sTempo de resposta (total)15.37sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
352Tokens de saída…
1,644Tokens de raciocínio…
OpenAI: GPT-5.2
70Pontuação média em todos os testes de benchmark.…
73A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
77.8%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)5.47sTempo de resposta (máx.)6.45sTempo de resposta (total)10.94sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
609Tokens de saída…
938Tokens de raciocínio…
Chamada de ferramentas
Pontuação
Consistência
Taxa de acerto por tentativa
Testes instáveis
Testes corretos
Tokens de saída
Tokens de raciocínio
OpenAI: GPT-5.4
100Pontuação média em todos os testes de benchmark.…
100A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)13.28sTempo de resposta (máx.)13.28sTempo de resposta (total)13.28sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
264Tokens de saída…
1,031Tokens de raciocínio…
OpenAI: GPT-5.3-Codex
100Pontuação média em todos os testes de benchmark.…
100A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.37sTempo de resposta (máx.)6.37sTempo de resposta (total)6.37sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
254Tokens de saída…
492Tokens de raciocínio…
OpenAI: GPT-5.2
100Pontuação média em todos os testes de benchmark.…
16A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
66.7%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem resposta: 1Tempo de resposta (médio)10.30sTempo de resposta (máx.)10.30sTempo de resposta (total)10.30sUm teste é totalmente aprovado apenas quando todas as execuções passam.…