Acompanhe os principais modelos de IA SOTA no leaderboard de benchmarks da AI BENCHY — uma forma simples de ver quais modelos lideram agora em pontuação, qualidade de raciocínio, confiabilidade e valor. Ordenar por: Custo por resultado ↑.
Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-03-06Modelos avaliados: 55
0/0
Sem dados disponíveis.
Posição
Modelo
Empresa
PontuaçãoPontuação média em todos os testes de benchmark.
Custo por resultadoMostra o custo médio por resposta correta no benchmark, em centavos (quanto menor, melhor).
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 3Resposta incorreta: 3Tempo de resposta (médio)29.10sTempo de resposta (máx.)170.45sTempo de resposta (total)290.96s…
Total de testes: 16Testes errados: 6Taxa de acerto por tentativa: 68.8%Testes instáveis: 2…Tokens de saída: 71,452Tokens de raciocínio: 155,147Tempo de resposta: médio 29.10s · total 290.96s · máx. 170.45s
Não seguiu as instruções: 3Resposta incorreta: 3
Anti-AI Tricks: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)18.54sTempo de resposta (máx.)32.30sTempo de resposta (total)37.07s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)29.57sTempo de resposta (máx.)29.57sTempo de resposta (total)29.57s
Data parsing and extraction: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)15.01sTempo de resposta (máx.)15.01sTempo de resposta (total)15.01s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)170.45sTempo de resposta (máx.)170.45sTempo de resposta (total)170.45s
General Intelligence: 6.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)6.54sTempo de resposta (máx.)6.54sTempo de resposta (total)6.54s
Instructions following: 9.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.98sTempo de resposta (máx.)4.98sTempo de resposta (total)4.98s
Puzzle Solving: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Resposta incorreta: 1Tempo de resposta (médio)7.72sTempo de resposta (máx.)10.60sTempo de resposta (total)15.44s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)11.91sTempo de resposta (máx.)11.91sTempo de resposta (total)11.91s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 9Não seguiu as instruções: 2Tempo de resposta (médio)3.15sTempo de resposta (máx.)8.91sTempo de resposta (total)50.46s…
Total de testes: 16Testes errados: 11Taxa de acerto por tentativa: 33.3%Testes instáveis: 1…Tokens de saída: 1,837Tokens de raciocínio: 0Tempo de resposta: médio 3.15s · total 50.46s · máx. 8.91s
Resposta incorreta: 9Não seguiu as instruções: 2
Anti-AI Tricks: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)3.59sTempo de resposta (máx.)8.17sTempo de resposta (total)10.78s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)8.91sTempo de resposta (máx.)8.91sTempo de resposta (total)8.91s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.26sTempo de resposta (máx.)4.66sTempo de resposta (total)6.52s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)877msTempo de resposta (máx.)894msTempo de resposta (total)2.63s
General Intelligence: 3.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.86sTempo de resposta (máx.)2.86sTempo de resposta (total)2.86s
Instructions following: 3.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Resposta incorreta: 1Tempo de resposta (médio)1.09sTempo de resposta (máx.)1.23sTempo de resposta (total)2.19s
Puzzle Solving: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)3.30sTempo de resposta (máx.)4.81sTempo de resposta (total)9.91s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.67sTempo de resposta (máx.)6.67sTempo de resposta (total)6.67s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 9Erro de API: 4Não seguiu as instruções: 2Tempo de resposta (médio)811msTempo de resposta (máx.)2.88sTempo de resposta (total)11.35s…
Total de testes: 16Testes errados: 15Taxa de acerto por tentativa: 14.6%Testes instáveis: 2…Tokens de saída: 1,185Tokens de raciocínio: 0Tempo de resposta: médio 811ms · total 11.35s · máx. 2.88s
Resposta incorreta: 9Erro de API: 4Não seguiu as instruções: 2
Anti-AI Tricks: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)471msTempo de resposta (máx.)872msTempo de resposta (total)1.41s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
Data parsing and extraction: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)714msTempo de resposta (máx.)987msTempo de resposta (total)1.43s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Resposta incorreta: 1Tempo de resposta (médio)287msTempo de resposta (máx.)334msTempo de resposta (total)860ms
General Intelligence: 3.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)395msTempo de resposta (máx.)395msTempo de resposta (total)395ms
Instructions following: 4.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)1.09sTempo de resposta (máx.)1.90sTempo de resposta (total)2.18s
Puzzle Solving: 3.3Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Não seguiu as instruções: 1Resposta incorreta: 1Tempo de resposta (médio)1.69sTempo de resposta (máx.)2.88sTempo de resposta (total)5.08s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 9Não seguiu as instruções: 2invalid tool call: 1Tempo de resposta (médio)2.99sTempo de resposta (máx.)7.05sTempo de resposta (total)26.90s…
Total de testes: 16Testes errados: 12Taxa de acerto por tentativa: 35.4%Testes instáveis: 3…Tokens de saída: 1,855Tokens de raciocínio: 0Tempo de resposta: médio 2.99s · total 26.90s · máx. 7.05s
Resposta incorreta: 9Não seguiu as instruções: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)6.59sTempo de resposta (máx.)6.59sTempo de resposta (total)6.59s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.invalid tool call: 1Tempo de resposta (médio)3.22sTempo de resposta (máx.)3.22sTempo de resposta (total)3.22s
Data parsing and extraction: 5.4Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.82sTempo de resposta (máx.)4.82sTempo de resposta (total)4.82s
Domain specific: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)744msTempo de resposta (máx.)744msTempo de resposta (total)744ms
General Intelligence: 3.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.59sTempo de resposta (máx.)1.59sTempo de resposta (total)1.59s
Instructions following: 5.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)888msTempo de resposta (máx.)888msTempo de resposta (total)888ms
Puzzle Solving: 3.7Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 2Resposta incorreta: 1Tempo de resposta (médio)1.00sTempo de resposta (máx.)1.12sTempo de resposta (total)2.00s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)7.05sTempo de resposta (máx.)7.05sTempo de resposta (total)7.05s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 8Não seguiu as instruções: 1Tempo de resposta (médio)3.54sTempo de resposta (máx.)13.73sTempo de resposta (total)56.70s…
Total de testes: 16Testes errados: 9Taxa de acerto por tentativa: 45.8%Testes instáveis: 1…Tokens de saída: 3,774Tokens de raciocínio: 0Tempo de resposta: médio 3.54s · total 56.70s · máx. 13.73s
Resposta incorreta: 8Não seguiu as instruções: 1
Anti-AI Tricks: 2.3Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.62sTempo de resposta (máx.)3.89sTempo de resposta (total)4.85s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)6.22sTempo de resposta (máx.)6.22sTempo de resposta (total)6.22s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.57sTempo de resposta (máx.)1.83sTempo de resposta (total)3.14s
Domain specific: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)905msTempo de resposta (máx.)1.10sTempo de resposta (total)2.71s
General Intelligence: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)803msTempo de resposta (máx.)803msTempo de resposta (total)803ms
Instructions following: 5.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)8.81sTempo de resposta (máx.)13.73sTempo de resposta (total)17.61s
Puzzle Solving: 1.3Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Não seguiu as instruções: 1Tempo de resposta (médio)5.90sTempo de resposta (máx.)12.19sTempo de resposta (total)17.69s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.67sTempo de resposta (máx.)3.67sTempo de resposta (total)3.67s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 11Não seguiu as instruções: 1Tempo de resposta (médio)2.07sTempo de resposta (máx.)7.58sTempo de resposta (total)18.60s…
Total de testes: 16Testes errados: 12Taxa de acerto por tentativa: 25.0%Testes instáveis: 0…Tokens de saída: 1,594Tokens de raciocínio: 0Tempo de resposta: médio 2.07s · total 18.60s · máx. 7.58s
Resposta incorreta: 11Não seguiu as instruções: 1
Anti-AI Tricks: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)1.83sTempo de resposta (máx.)1.83sTempo de resposta (total)1.83s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)7.58sTempo de resposta (máx.)7.58sTempo de resposta (total)7.58s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.27sTempo de resposta (máx.)1.27sTempo de resposta (total)1.27s
Domain specific: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)637msTempo de resposta (máx.)637msTempo de resposta (total)637ms
General Intelligence: 3.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)909msTempo de resposta (máx.)909msTempo de resposta (total)909ms
Instructions following: 4.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Resposta incorreta: 1Tempo de resposta (médio)1.27sTempo de resposta (máx.)1.27sTempo de resposta (total)1.27s
Puzzle Solving: 2.3Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.30sTempo de resposta (máx.)1.54sTempo de resposta (total)2.60s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.51sTempo de resposta (máx.)2.51sTempo de resposta (total)2.51s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 5Não seguiu as instruções: 4Tempo de resposta (médio)16.65sTempo de resposta (máx.)50.92sTempo de resposta (total)149.88s…
Total de testes: 16Testes errados: 9Taxa de acerto por tentativa: 54.2%Testes instáveis: 5…Tokens de saída: 13,210Tokens de raciocínio: 34,230Tempo de resposta: médio 16.65s · total 149.88s · máx. 50.92s
Resposta incorreta: 5Não seguiu as instruções: 4
Anti-AI Tricks: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)19.76sTempo de resposta (máx.)19.76sTempo de resposta (total)19.76s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)31.18sTempo de resposta (máx.)31.18sTempo de resposta (total)31.18s
Data parsing and extraction: 5.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.98sTempo de resposta (máx.)1.98sTempo de resposta (total)1.98s
Domain specific: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)50.92sTempo de resposta (máx.)50.92sTempo de resposta (total)50.92s
General Intelligence: 3.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)7.90sTempo de resposta (máx.)7.90sTempo de resposta (total)7.90s
Instructions following: 9.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.63sTempo de resposta (máx.)7.63sTempo de resposta (total)7.63s
Puzzle Solving: 1.7Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 2Resposta incorreta: 1Tempo de resposta (médio)11.80sTempo de resposta (máx.)12.60sTempo de resposta (total)23.61s
Tool Calling: 9.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.91sTempo de resposta (máx.)6.91sTempo de resposta (total)6.91s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Não seguiu as instruções: 2Tempo de resposta (médio)1.33sTempo de resposta (máx.)3.39sTempo de resposta (total)21.27s…
Total de testes: 16Testes errados: 6Taxa de acerto por tentativa: 66.7%Testes instáveis: 1…Tokens de saída: 4,715Tokens de raciocínio: 0Tempo de resposta: médio 1.33s · total 21.27s · máx. 3.39s
Resposta incorreta: 4Não seguiu as instruções: 2
Anti-AI Tricks: 6.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Resposta incorreta: 1Tempo de resposta (médio)1.16sTempo de resposta (máx.)1.47sTempo de resposta (total)3.49s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.20sTempo de resposta (máx.)3.20sTempo de resposta (total)3.20s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.22sTempo de resposta (máx.)1.33sTempo de resposta (total)2.44s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)942msTempo de resposta (máx.)1.12sTempo de resposta (total)2.83s
General Intelligence: 3.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)741msTempo de resposta (máx.)741msTempo de resposta (total)741ms
Instructions following: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.13sTempo de resposta (máx.)1.14sTempo de resposta (total)2.27s
Puzzle Solving: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)972msTempo de resposta (máx.)1.13sTempo de resposta (total)2.92s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.39sTempo de resposta (máx.)3.39sTempo de resposta (total)3.39s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 11Não seguiu as instruções: 1Tempo de resposta (médio)596msTempo de resposta (máx.)1.27sTempo de resposta (total)9.54s…
Total de testes: 16Testes errados: 12Taxa de acerto por tentativa: 31.3%Testes instáveis: 2…Tokens de saída: 1,303Tokens de raciocínio: 0Tempo de resposta: médio 596ms · total 9.54s · máx. 1.27s
Resposta incorreta: 11Não seguiu as instruções: 1
Anti-AI Tricks: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)466msTempo de resposta (máx.)716msTempo de resposta (total)1.40s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)606msTempo de resposta (máx.)606msTempo de resposta (total)606ms
Data parsing and extraction: 5.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)667msTempo de resposta (máx.)819msTempo de resposta (total)1.33s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)534msTempo de resposta (máx.)733msTempo de resposta (total)1.60s
General Intelligence: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)628msTempo de resposta (máx.)628msTempo de resposta (total)628ms
Instructions following: 5.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)551msTempo de resposta (máx.)622msTempo de resposta (total)1.10s
Puzzle Solving: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)533msTempo de resposta (máx.)637msTempo de resposta (total)1.60s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.27sTempo de resposta (máx.)1.27sTempo de resposta (total)1.27s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 5Tempo de resposta (médio)1.75sTempo de resposta (máx.)3.56sTempo de resposta (total)15.71s…
Total de testes: 16Testes errados: 5Taxa de acerto por tentativa: 75.0%Testes instáveis: 2…Tokens de saída: 1,411Tokens de raciocínio: 0Tempo de resposta: médio 1.75s · total 15.71s · máx. 3.56s
Resposta incorreta: 5
Anti-AI Tricks: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.59sTempo de resposta (máx.)1.59sTempo de resposta (total)1.59s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.56sTempo de resposta (máx.)3.56sTempo de resposta (total)3.56s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.41sTempo de resposta (máx.)1.41sTempo de resposta (total)1.41s
Domain specific: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)963msTempo de resposta (máx.)963msTempo de resposta (total)963ms
General Intelligence: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.13sTempo de resposta (máx.)1.13sTempo de resposta (total)1.13s
Instructions following: 5.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.58sTempo de resposta (máx.)1.58sTempo de resposta (total)1.58s
Puzzle Solving: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.06sTempo de resposta (máx.)1.06sTempo de resposta (total)2.12s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.35sTempo de resposta (máx.)3.35sTempo de resposta (total)3.35s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 7Tempo de resposta (médio)2.65sTempo de resposta (máx.)6.65sTempo de resposta (total)26.52s…
Total de testes: 16Testes errados: 7Taxa de acerto por tentativa: 58.3%Testes instáveis: 1…Tokens de saída: 2,015Tokens de raciocínio: 0Tempo de resposta: médio 2.65s · total 26.52s · máx. 6.65s
Resposta incorreta: 7
Anti-AI Tricks: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)2.74sTempo de resposta (máx.)2.74sTempo de resposta (total)2.74s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)6.65sTempo de resposta (máx.)6.65sTempo de resposta (total)6.65s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.89sTempo de resposta (máx.)1.89sTempo de resposta (total)1.89s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)1.17sTempo de resposta (máx.)1.44sTempo de resposta (total)2.33s
General Intelligence: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.26sTempo de resposta (máx.)2.26sTempo de resposta (total)2.26s
Instructions following: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.67sTempo de resposta (máx.)1.67sTempo de resposta (total)1.67s
Puzzle Solving: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.82sTempo de resposta (máx.)3.52sTempo de resposta (total)5.65s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.33sTempo de resposta (máx.)3.33sTempo de resposta (total)3.33s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 10Formatação extra: 1Não seguiu as instruções: 1Tempo de resposta (médio)11.68sTempo de resposta (máx.)45.14sTempo de resposta (total)116.76s…
Total de testes: 16Testes errados: 12Taxa de acerto por tentativa: 25.0%Testes instáveis: 0…Tokens de saída: 3,026Tokens de raciocínio: 0Tempo de resposta: médio 11.68s · total 116.76s · máx. 45.14s
Resposta incorreta: 10Formatação extra: 1Não seguiu as instruções: 1
Anti-AI Tricks: 2.3Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 1Não seguiu as instruções: 1Resposta incorreta: 1Tempo de resposta (médio)4.39sTempo de resposta (máx.)4.39sTempo de resposta (total)4.39s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)45.14sTempo de resposta (máx.)45.14sTempo de resposta (total)45.14s
Data parsing and extraction: 5.4Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.32sTempo de resposta (máx.)1.32sTempo de resposta (total)1.32s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)962msTempo de resposta (máx.)962msTempo de resposta (total)962ms
General Intelligence: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.34sTempo de resposta (máx.)1.34sTempo de resposta (total)1.34s
Instructions following: 4.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)7.71sTempo de resposta (máx.)14.65sTempo de resposta (total)15.42s
Puzzle Solving: 1.3Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)22.86sTempo de resposta (máx.)42.58sTempo de resposta (total)45.73s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.47sTempo de resposta (máx.)2.47sTempo de resposta (total)2.47s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Não seguiu as instruções: 1Tempo de resposta (médio)3.36sTempo de resposta (máx.)11.91sTempo de resposta (total)53.84s…
Total de testes: 16Testes errados: 5Taxa de acerto por tentativa: 68.8%Testes instáveis: 0…Tokens de saída: 1,611Tokens de raciocínio: 7,272Tempo de resposta: médio 3.36s · total 53.84s · máx. 11.91s
Resposta incorreta: 4Não seguiu as instruções: 1
Anti-AI Tricks: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.18sTempo de resposta (máx.)3.18sTempo de resposta (total)6.53s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)11.91sTempo de resposta (máx.)11.91sTempo de resposta (total)11.91s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.00sTempo de resposta (máx.)3.74sTempo de resposta (total)5.99s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)2.36sTempo de resposta (máx.)3.51sTempo de resposta (total)7.07s
General Intelligence: 3.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.54sTempo de resposta (máx.)1.54sTempo de resposta (total)1.54s
Instructions following: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.49sTempo de resposta (máx.)1.66sTempo de resposta (total)2.99s
Puzzle Solving: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.76sTempo de resposta (máx.)5.08sTempo de resposta (total)8.27s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.54sTempo de resposta (máx.)9.54sTempo de resposta (total)9.54s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 9Não seguiu as instruções: 1Tempo de resposta (médio)923msTempo de resposta (máx.)4.39sTempo de resposta (total)14.78s…
Total de testes: 16Testes errados: 10Taxa de acerto por tentativa: 43.8%Testes instáveis: 2…Tokens de saída: 1,270Tokens de raciocínio: 0Tempo de resposta: médio 923ms · total 14.78s · máx. 4.39s
Resposta incorreta: 9Não seguiu as instruções: 1
Anti-AI Tricks: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)668msTempo de resposta (máx.)844msTempo de resposta (total)2.01s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.39sTempo de resposta (máx.)4.39sTempo de resposta (total)4.39s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)652msTempo de resposta (máx.)660msTempo de resposta (total)1.30s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)495msTempo de resposta (máx.)642msTempo de resposta (total)1.49s
General Intelligence: 5.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)615msTempo de resposta (máx.)615msTempo de resposta (total)615ms
Instructions following: 9.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)672msTempo de resposta (máx.)785msTempo de resposta (total)1.34s
Puzzle Solving: 4.7Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Resposta incorreta: 1Tempo de resposta (médio)576msTempo de resposta (máx.)700msTempo de resposta (total)1.73s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.91sTempo de resposta (máx.)1.91sTempo de resposta (total)1.91s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 7Tempo de resposta (médio)4.03sTempo de resposta (máx.)11.07sTempo de resposta (total)36.30s…
Total de testes: 16Testes errados: 7Taxa de acerto por tentativa: 56.3%Testes instáveis: 0…Tokens de saída: 1,548Tokens de raciocínio: 0Tempo de resposta: médio 4.03s · total 36.30s · máx. 11.07s
Resposta incorreta: 7
Anti-AI Tricks: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)3.39sTempo de resposta (máx.)3.39sTempo de resposta (total)3.39s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.98sTempo de resposta (máx.)4.98sTempo de resposta (total)4.98s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.78sTempo de resposta (máx.)5.78sTempo de resposta (total)5.78s
Domain specific: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)2.24sTempo de resposta (máx.)2.24sTempo de resposta (total)2.24s
General Intelligence: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.27sTempo de resposta (máx.)3.27sTempo de resposta (total)3.27s
Instructions following: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.48sTempo de resposta (máx.)1.48sTempo de resposta (total)1.48s
Puzzle Solving: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.05sTempo de resposta (máx.)2.08sTempo de resposta (total)4.10s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)11.07sTempo de resposta (máx.)11.07sTempo de resposta (total)11.07s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 6Formatação extra: 2invalid tool call: 1Tempo de resposta (médio)12.86sTempo de resposta (máx.)115.89sTempo de resposta (total)205.78s…
Total de testes: 16Testes errados: 9Taxa de acerto por tentativa: 54.2%Testes instáveis: 3…Tokens de saída: 7,823Tokens de raciocínio: 0Tempo de resposta: médio 12.86s · total 205.78s · máx. 115.89s
Anti-AI Tricks: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 2Resposta incorreta: 1Tempo de resposta (médio)8.79sTempo de resposta (máx.)12.26sTempo de resposta (total)26.38s
Combined: 8.0Um teste é totalmente aprovado apenas quando todas as execuções passam.invalid tool call: 1Tempo de resposta (médio)115.89sTempo de resposta (máx.)115.89sTempo de resposta (total)115.89s
Data parsing and extraction: 5.4Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)9.42sTempo de resposta (máx.)16.20sTempo de resposta (total)18.84s
Domain specific: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.61sTempo de resposta (máx.)1.77sTempo de resposta (total)4.83s
General Intelligence: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.86sTempo de resposta (máx.)2.86sTempo de resposta (total)2.86s
Instructions following: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.52sTempo de resposta (máx.)1.99sTempo de resposta (total)3.04s
Puzzle Solving: 7.7Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)7.37sTempo de resposta (máx.)10.78sTempo de resposta (total)22.10s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)11.85sTempo de resposta (máx.)11.85sTempo de resposta (total)11.85s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Não seguiu as instruções: 1Tempo esgotado: 1Tempo de resposta (médio)39.48sTempo de resposta (máx.)93.11sTempo de resposta (total)631.71s…
Total de testes: 16Testes errados: 5Taxa de acerto por tentativa: 79.2%Testes instáveis: 3…Tokens de saída: 7,392Tokens de raciocínio: 39,089Tempo de resposta: médio 39.48s · total 631.71s · máx. 93.11s
Resposta incorreta: 3Não seguiu as instruções: 1Tempo esgotado: 1
Anti-AI Tricks: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)33.39sTempo de resposta (máx.)44.23sTempo de resposta (total)100.18s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)93.11sTempo de resposta (máx.)93.11sTempo de resposta (total)93.11s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)36.09sTempo de resposta (máx.)39.12sTempo de resposta (total)72.18s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Resposta incorreta: 1Tempo de resposta (médio)39.32sTempo de resposta (máx.)79.03sTempo de resposta (total)117.95s
General Intelligence: 3.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)31.30sTempo de resposta (máx.)31.30sTempo de resposta (total)31.30s
Instructions following: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)35.78sTempo de resposta (máx.)47.30sTempo de resposta (total)71.56s
Puzzle Solving: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)36.87sTempo de resposta (máx.)59.22sTempo de resposta (total)110.62s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)34.81sTempo de resposta (máx.)34.81sTempo de resposta (total)34.81s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 8Não seguiu as instruções: 5Tempo de resposta (médio)12.53sTempo de resposta (máx.)81.80sTempo de resposta (total)125.32s…
Total de testes: 16Testes errados: 13Taxa de acerto por tentativa: 27.1%Testes instáveis: 2…Tokens de saída: 2,935Tokens de raciocínio: 0Tempo de resposta: médio 12.53s · total 125.32s · máx. 81.80s
Resposta incorreta: 8Não seguiu as instruções: 5
Anti-AI Tricks: 1.3Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Não seguiu as instruções: 1Tempo de resposta (médio)15.28sTempo de resposta (máx.)15.28sTempo de resposta (total)15.28s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.28sTempo de resposta (máx.)4.28sTempo de resposta (total)4.28s
Data parsing and extraction: 5.4Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)81.80sTempo de resposta (máx.)81.80sTempo de resposta (total)81.80s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)638msTempo de resposta (máx.)638msTempo de resposta (total)638ms
General Intelligence: 6.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.39sTempo de resposta (máx.)1.39sTempo de resposta (total)1.39s
Instructions following: 4.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Resposta incorreta: 1Tempo de resposta (médio)7.34sTempo de resposta (máx.)13.67sTempo de resposta (total)14.68s
Puzzle Solving: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 2Resposta incorreta: 1Tempo de resposta (médio)2.30sTempo de resposta (máx.)3.80sTempo de resposta (total)4.61s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.64sTempo de resposta (máx.)2.64sTempo de resposta (total)2.64s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 8Não seguiu as instruções: 2Tempo de resposta (médio)4.10sTempo de resposta (máx.)47.43sTempo de resposta (total)65.62s…
Total de testes: 16Testes errados: 10Taxa de acerto por tentativa: 50.0%Testes instáveis: 3…Tokens de saída: 3,756Tokens de raciocínio: 0Tempo de resposta: médio 4.10s · total 65.62s · máx. 47.43s
Resposta incorreta: 8Não seguiu as instruções: 2
Anti-AI Tricks: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.76sTempo de resposta (máx.)4.39sTempo de resposta (total)5.27s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)47.43sTempo de resposta (máx.)47.43sTempo de resposta (total)47.43s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.16sTempo de resposta (máx.)1.42sTempo de resposta (total)2.33s
Domain specific: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)485msTempo de resposta (máx.)549msTempo de resposta (total)1.45s
General Intelligence: 6.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.19sTempo de resposta (máx.)1.19sTempo de resposta (total)1.19s
Instructions following: 5.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)809msTempo de resposta (máx.)983msTempo de resposta (total)1.62s
Puzzle Solving: 1.7Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Não seguiu as instruções: 1Tempo de resposta (médio)1.34sTempo de resposta (máx.)2.25sTempo de resposta (total)4.03s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.30sTempo de resposta (máx.)2.30sTempo de resposta (total)2.30s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 11Não seguiu as instruções: 2Tempo de resposta (médio)1.90sTempo de resposta (máx.)5.51sTempo de resposta (total)17.14s…
Total de testes: 16Testes errados: 13Taxa de acerto por tentativa: 25.0%Testes instáveis: 2…Tokens de saída: 1,148Tokens de raciocínio: 0Tempo de resposta: médio 1.90s · total 17.14s · máx. 5.51s
Resposta incorreta: 11Não seguiu as instruções: 2
Anti-AI Tricks: 1.3Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Não seguiu as instruções: 1Tempo de resposta (médio)1.73sTempo de resposta (máx.)1.73sTempo de resposta (total)1.73s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.33sTempo de resposta (máx.)3.33sTempo de resposta (total)3.33s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)943msTempo de resposta (máx.)943msTempo de resposta (total)943ms
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)1.06sTempo de resposta (máx.)1.06sTempo de resposta (total)1.06s
General Intelligence: 3.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.08sTempo de resposta (máx.)1.08sTempo de resposta (total)1.08s
Instructions following: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)923msTempo de resposta (máx.)923msTempo de resposta (total)923ms
Puzzle Solving: 1.3Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.28sTempo de resposta (máx.)1.36sTempo de resposta (total)2.56s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)5.51sTempo de resposta (máx.)5.51sTempo de resposta (total)5.51s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 4Não seguiu as instruções: 1Resposta incorreta: 1Tempo de resposta (médio)65.09sTempo de resposta (máx.)262.83sTempo de resposta (total)846.14s…
Total de testes: 16Testes errados: 6Taxa de acerto por tentativa: 68.8%Testes instáveis: 2…Tokens de saída: 1,965Tokens de raciocínio: 58,456Tempo de resposta: médio 65.09s · total 846.14s · máx. 262.83s
Tempo esgotado: 4Não seguiu as instruções: 1Resposta incorreta: 1
Anti-AI Tricks: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Tempo de resposta (médio)98.99sTempo de resposta (máx.)182.10sTempo de resposta (total)296.96s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)262.83sTempo de resposta (máx.)262.83sTempo de resposta (total)262.83s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)24.27sTempo de resposta (máx.)27.52sTempo de resposta (total)48.54s
Domain specific: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 3Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
General Intelligence: 6.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)36.65sTempo de resposta (máx.)36.65sTempo de resposta (total)36.65s
Instructions following: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)17.47sTempo de resposta (máx.)19.46sTempo de resposta (total)34.93s
Puzzle Solving: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)25.85sTempo de resposta (máx.)32.95sTempo de resposta (total)77.55s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)88.68sTempo de resposta (máx.)88.68sTempo de resposta (total)88.68s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 11Tempo de resposta (médio)11.91sTempo de resposta (máx.)42.13sTempo de resposta (total)107.16s…
Total de testes: 16Testes errados: 11Taxa de acerto por tentativa: 39.6%Testes instáveis: 3…Tokens de saída: 2,000Tokens de raciocínio: 0Tempo de resposta: médio 11.91s · total 107.16s · máx. 42.13s
Resposta incorreta: 11
Anti-AI Tricks: 2.7Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)11.38sTempo de resposta (máx.)11.38sTempo de resposta (total)11.38s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)19.16sTempo de resposta (máx.)19.16sTempo de resposta (total)19.16s
Data parsing and extraction: 5.4Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)42.13sTempo de resposta (máx.)42.13sTempo de resposta (total)42.13s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)4.38sTempo de resposta (máx.)4.38sTempo de resposta (total)4.38s
General Intelligence: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.00sTempo de resposta (máx.)4.00sTempo de resposta (total)4.00s
Instructions following: 5.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.67sTempo de resposta (máx.)2.67sTempo de resposta (total)2.67s
Puzzle Solving: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)4.73sTempo de resposta (máx.)7.81sTempo de resposta (total)9.45s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)13.99sTempo de resposta (máx.)13.99sTempo de resposta (total)13.99s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 9Não seguiu as instruções: 2Tempo de resposta (médio)1.75sTempo de resposta (máx.)9.39sTempo de resposta (total)28.05s…
Total de testes: 16Testes errados: 11Taxa de acerto por tentativa: 37.5%Testes instáveis: 2…Tokens de saída: 3,161Tokens de raciocínio: 0Tempo de resposta: médio 1.75s · total 28.05s · máx. 9.39s
Resposta incorreta: 9Não seguiu as instruções: 2
Anti-AI Tricks: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)796msTempo de resposta (máx.)1.34sTempo de resposta (total)2.39s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)9.39sTempo de resposta (máx.)9.39sTempo de resposta (total)9.39s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.43sTempo de resposta (máx.)1.45sTempo de resposta (total)2.86s
Domain specific: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)540msTempo de resposta (máx.)649msTempo de resposta (total)1.62s
General Intelligence: 5.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.51sTempo de resposta (máx.)2.51sTempo de resposta (total)2.51s
Instructions following: 4.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)815msTempo de resposta (máx.)973msTempo de resposta (total)1.63s
Puzzle Solving: 6.3Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Resposta incorreta: 1Tempo de resposta (médio)1.37sTempo de resposta (máx.)2.23sTempo de resposta (total)4.12s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.54sTempo de resposta (máx.)3.54sTempo de resposta (total)3.54s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Erro de API: 1Não seguiu as instruções: 1Tempo de resposta (médio)25.33sTempo de resposta (máx.)96.01sTempo de resposta (total)253.33s…
Total de testes: 16Testes errados: 5Taxa de acerto por tentativa: 72.9%Testes instáveis: 1…Tokens de saída: 11,613Tokens de raciocínio: 106,714Tempo de resposta: médio 25.33s · total 253.33s · máx. 96.01s
Resposta incorreta: 3Erro de API: 1Não seguiu as instruções: 1
Anti-AI Tricks: 9.7Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)16.79sTempo de resposta (máx.)20.83sTempo de resposta (total)33.57s
Combined: 9.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)75.68sTempo de resposta (máx.)75.68sTempo de resposta (total)75.68s
Data parsing and extraction: 5.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)96.01sTempo de resposta (máx.)96.01sTempo de resposta (total)96.01s
General Intelligence: 3.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.20sTempo de resposta (máx.)4.20sTempo de resposta (total)4.20s
Instructions following: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.28sTempo de resposta (máx.)7.37sTempo de resposta (total)8.55s
Puzzle Solving: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.77sTempo de resposta (máx.)5.26sTempo de resposta (total)7.55s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)27.78sTempo de resposta (máx.)27.78sTempo de resposta (total)27.78s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 9Não seguiu as instruções: 1Tempo de resposta (médio)3.72sTempo de resposta (máx.)46.00sTempo de resposta (total)59.46s…
Total de testes: 16Testes errados: 10Taxa de acerto por tentativa: 39.6%Testes instáveis: 1…Tokens de saída: 2,679Tokens de raciocínio: 0Tempo de resposta: médio 3.72s · total 59.46s · máx. 46.00s
Resposta incorreta: 9Não seguiu as instruções: 1
Anti-AI Tricks: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)927msTempo de resposta (máx.)1.38sTempo de resposta (total)2.78s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)46.00sTempo de resposta (máx.)46.00sTempo de resposta (total)46.00s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.01sTempo de resposta (máx.)1.06sTempo de resposta (total)2.02s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)465msTempo de resposta (máx.)492msTempo de resposta (total)1.39s
General Intelligence: 5.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.12sTempo de resposta (máx.)1.12sTempo de resposta (total)1.12s
Instructions following: 4.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)585msTempo de resposta (máx.)715msTempo de resposta (total)1.17s
Puzzle Solving: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)982msTempo de resposta (máx.)1.36sTempo de resposta (total)2.95s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.04sTempo de resposta (máx.)2.04sTempo de resposta (total)2.04s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Não seguiu as instruções: 1Tempo de resposta (médio)3.83sTempo de resposta (máx.)14.93sTempo de resposta (total)61.25s…
Total de testes: 16Testes errados: 5Taxa de acerto por tentativa: 68.8%Testes instáveis: 0…Tokens de saída: 1,731Tokens de raciocínio: 25,821Tempo de resposta: médio 3.83s · total 61.25s · máx. 14.93s
Resposta incorreta: 4Não seguiu as instruções: 1
Anti-AI Tricks: 9.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.53sTempo de resposta (máx.)3.89sTempo de resposta (total)7.58s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)14.93sTempo de resposta (máx.)14.93sTempo de resposta (total)14.93s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.29sTempo de resposta (máx.)2.31sTempo de resposta (total)4.59s
Domain specific: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)4.21sTempo de resposta (máx.)5.86sTempo de resposta (total)12.62s
General Intelligence: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.16sTempo de resposta (máx.)3.16sTempo de resposta (total)3.16s
Instructions following: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.91sTempo de resposta (máx.)1.93sTempo de resposta (total)3.82s
Puzzle Solving: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.58sTempo de resposta (máx.)4.41sTempo de resposta (total)10.75s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.80sTempo de resposta (máx.)3.80sTempo de resposta (total)3.80s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 3Resposta incorreta: 2Sem resposta: 1Tempo esgotado: 1Tempo de resposta (médio)26.35sTempo de resposta (máx.)121.79sTempo de resposta (total)237.11s…
Total de testes: 16Testes errados: 7Taxa de acerto por tentativa: 66.7%Testes instáveis: 4…Tokens de saída: 1,183Tokens de raciocínio: 83,875Tempo de resposta: médio 26.35s · total 237.11s · máx. 121.79s
Não seguiu as instruções: 3Resposta incorreta: 2Sem resposta: 1Tempo esgotado: 1
Anti-AI Tricks: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.65sTempo de resposta (máx.)5.65sTempo de resposta (total)5.65s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)37.64sTempo de resposta (máx.)37.64sTempo de resposta (total)37.64s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.63sTempo de resposta (máx.)6.63sTempo de resposta (total)6.63s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Resposta incorreta: 1Tempo de resposta (médio)121.79sTempo de resposta (máx.)121.79sTempo de resposta (total)121.79s
General Intelligence: 3.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)16.25sTempo de resposta (máx.)16.25sTempo de resposta (total)16.25s
Instructions following: 5.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)5.30sTempo de resposta (máx.)5.30sTempo de resposta (total)5.30s
Puzzle Solving: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Resposta incorreta: 1Tempo de resposta (médio)8.08sTempo de resposta (máx.)8.38sTempo de resposta (total)16.17s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem resposta: 1Tempo de resposta (médio)27.71sTempo de resposta (máx.)27.71sTempo de resposta (total)27.71s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)6.11sTempo de resposta (máx.)14.72sTempo de resposta (total)97.74s…
Total de testes: 16Testes errados: 3Taxa de acerto por tentativa: 83.3%Testes instáveis: 1…Tokens de saída: 1,586Tokens de raciocínio: 19,950Tempo de resposta: médio 6.11s · total 97.74s · máx. 14.72s
Resposta incorreta: 3
Anti-AI Tricks: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.50sTempo de resposta (máx.)4.31sTempo de resposta (total)10.49s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.27sTempo de resposta (máx.)3.27sTempo de resposta (total)3.27s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.40sTempo de resposta (máx.)14.72sTempo de resposta (total)18.80s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)8.05sTempo de resposta (máx.)14.40sTempo de resposta (total)24.15s
General Intelligence: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.68sTempo de resposta (máx.)3.68sTempo de resposta (total)3.68s
Instructions following: 9.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.02sTempo de resposta (máx.)7.35sTempo de resposta (total)14.03s
Puzzle Solving: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.11sTempo de resposta (máx.)10.27sTempo de resposta (total)18.32s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.99sTempo de resposta (máx.)4.99sTempo de resposta (total)4.99s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 5Não seguiu as instruções: 4Tempo de resposta (médio)2.36sTempo de resposta (máx.)14.63sTempo de resposta (total)35.39s…
Total de testes: 16Testes errados: 9Taxa de acerto por tentativa: 54.2%Testes instáveis: 3…Tokens de saída: 3,708Tokens de raciocínio: 45,921Tempo de resposta: médio 2.36s · total 35.39s · máx. 14.63s
Resposta incorreta: 5Não seguiu as instruções: 4
Anti-AI Tricks: 7.3Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.30sTempo de resposta (máx.)2.46sTempo de resposta (total)3.89s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.28sTempo de resposta (máx.)3.28sTempo de resposta (total)3.28s
Data parsing and extraction: 5.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.11sTempo de resposta (máx.)1.47sTempo de resposta (total)2.21s
Domain specific: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)6.48sTempo de resposta (máx.)14.63sTempo de resposta (total)19.43s
General Intelligence: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)821msTempo de resposta (máx.)821msTempo de resposta (total)821ms
Instructions following: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.07sTempo de resposta (máx.)1.07sTempo de resposta (total)1.07s
Puzzle Solving: 1.7Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 2Resposta incorreta: 1Tempo de resposta (médio)934msTempo de resposta (máx.)1.18sTempo de resposta (total)2.80s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.89sTempo de resposta (máx.)1.89sTempo de resposta (total)1.89s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 3Erro de API: 1Não seguiu as instruções: 1Resposta incorreta: 1Tempo de resposta (médio)70.81sTempo de resposta (máx.)234.29sTempo de resposta (total)1132.90s…
Total de testes: 16Testes errados: 6Taxa de acerto por tentativa: 81.3%Testes instáveis: 5…Tokens de saída: 1,807Tokens de raciocínio: 169,952Tempo de resposta: médio 70.81s · total 1132.90s · máx. 234.29s
Tempo esgotado: 3Erro de API: 1Não seguiu as instruções: 1Resposta incorreta: 1
Anti-AI Tricks: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)71.35sTempo de resposta (máx.)168.31sTempo de resposta (total)214.06s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)17.78sTempo de resposta (máx.)17.78sTempo de resposta (total)17.78s
Data parsing and extraction: 5.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)56.99sTempo de resposta (máx.)80.14sTempo de resposta (total)113.98s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Resposta incorreta: 1Tempo de resposta (médio)146.50sTempo de resposta (máx.)234.29sTempo de resposta (total)439.49s
General Intelligence: 5.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)40.05sTempo de resposta (máx.)40.05sTempo de resposta (total)40.05s
Instructions following: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)63.49sTempo de resposta (máx.)111.61sTempo de resposta (total)126.98s
Puzzle Solving: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 2Tempo de resposta (médio)56.74sTempo de resposta (máx.)115.01sTempo de resposta (total)170.23s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)10.33sTempo de resposta (máx.)10.33sTempo de resposta (total)10.33s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 10Erro de API: 1Formatação extra: 1Não seguiu as instruções: 1Tempo de resposta (médio)2.97sTempo de resposta (máx.)19.68sTempo de resposta (total)35.60s…
Total de testes: 16Testes errados: 13Taxa de acerto por tentativa: 29.2%Testes instáveis: 4…Tokens de saída: 67,790Tokens de raciocínio: 0Tempo de resposta: médio 2.97s · total 35.60s · máx. 19.68s
Resposta incorreta: 10Erro de API: 1Formatação extra: 1Não seguiu as instruções: 1
Anti-AI Tricks: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.36sTempo de resposta (máx.)2.73sTempo de resposta (total)4.07s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.87sTempo de resposta (máx.)2.87sTempo de resposta (total)2.87s
Data parsing and extraction: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Formatação extra: 1Tempo de resposta (médio)19.68sTempo de resposta (máx.)19.68sTempo de resposta (total)19.68s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)564msTempo de resposta (máx.)564msTempo de resposta (total)564ms
General Intelligence: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.67sTempo de resposta (máx.)1.67sTempo de resposta (total)1.67s
Instructions following: 5.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)857msTempo de resposta (máx.)955msTempo de resposta (total)1.71s
Puzzle Solving: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.38sTempo de resposta (máx.)1.74sTempo de resposta (total)2.75s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.28sTempo de resposta (máx.)2.28sTempo de resposta (total)2.28s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 5Não seguiu as instruções: 3Tempo esgotado: 1Tempo de resposta (médio)47.94sTempo de resposta (máx.)204.02sTempo de resposta (total)431.47s…
Total de testes: 16Testes errados: 9Taxa de acerto por tentativa: 60.4%Testes instáveis: 6…Tokens de saída: 4,386Tokens de raciocínio: 142,080Tempo de resposta: médio 47.94s · total 431.47s · máx. 204.02s
Resposta incorreta: 5Não seguiu as instruções: 3Tempo esgotado: 1
Anti-AI Tricks: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)37.73sTempo de resposta (máx.)37.73sTempo de resposta (total)37.73s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)65.96sTempo de resposta (máx.)65.96sTempo de resposta (total)65.96s
Data parsing and extraction: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)21.42sTempo de resposta (máx.)21.42sTempo de resposta (total)21.42s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Resposta incorreta: 1Tempo de resposta (médio)204.02sTempo de resposta (máx.)204.02sTempo de resposta (total)204.02s
General Intelligence: 3.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)17.51sTempo de resposta (máx.)17.51sTempo de resposta (total)17.51s
Instructions following: 9.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)11.90sTempo de resposta (máx.)11.90sTempo de resposta (total)11.90s
Puzzle Solving: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Resposta incorreta: 1Tempo de resposta (médio)19.81sTempo de resposta (máx.)21.31sTempo de resposta (total)39.63s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)33.30sTempo de resposta (máx.)33.30sTempo de resposta (total)33.30s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Não seguiu as instruções: 1Sem resposta: 1Tempo esgotado: 1Tempo de resposta (médio)16.16sTempo de resposta (máx.)28.96sTempo de resposta (total)129.26s…
Total de testes: 16Testes errados: 5Taxa de acerto por tentativa: 83.3%Testes instáveis: 4…Tokens de saída: 19,773Tokens de raciocínio: 36,459Tempo de resposta: médio 16.16s · total 129.26s · máx. 28.96s
Anti-AI Tricks: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)22.26sTempo de resposta (máx.)22.26sTempo de resposta (total)22.26s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)28.96sTempo de resposta (máx.)28.96sTempo de resposta (total)28.96s
Data parsing and extraction: 5.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem resposta: 1Tempo de resposta (médio)8.90sTempo de resposta (máx.)8.90sTempo de resposta (total)8.90s
Domain specific: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo esgotado: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
General Intelligence: 5.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)14.69sTempo de resposta (máx.)14.69sTempo de resposta (total)14.69s
Instructions following: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.25sTempo de resposta (máx.)7.25sTempo de resposta (total)7.25s
Puzzle Solving: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)15.64sTempo de resposta (máx.)16.34sTempo de resposta (total)31.27s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)15.93sTempo de resposta (máx.)15.93sTempo de resposta (total)15.93s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)12.36sTempo de resposta (máx.)50.16sTempo de resposta (total)111.21s…
Total de testes: 16Testes errados: 0Taxa de acerto por tentativa: 100.0%Testes instáveis: 0…Tokens de saída: 1,634Tokens de raciocínio: 47,907Tempo de resposta: médio 12.36s · total 111.21s · máx. 50.16s
Anti-AI Tricks: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.61sTempo de resposta (máx.)5.61sTempo de resposta (total)5.61s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)50.16sTempo de resposta (máx.)50.16sTempo de resposta (total)50.16s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.72sTempo de resposta (máx.)4.72sTempo de resposta (total)4.72s
Domain specific: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)21.12sTempo de resposta (máx.)21.12sTempo de resposta (total)21.12s
General Intelligence: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.09sTempo de resposta (máx.)4.09sTempo de resposta (total)4.09s
Instructions following: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.10sTempo de resposta (máx.)6.10sTempo de resposta (total)6.10s
Puzzle Solving: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.43sTempo de resposta (máx.)4.68sTempo de resposta (total)8.85s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)10.55sTempo de resposta (máx.)10.55sTempo de resposta (total)10.55s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 7Não seguiu as instruções: 2Sem resposta: 2invalid tool call: 1Tempo de resposta (médio)36.84sTempo de resposta (máx.)174.55sTempo de resposta (total)331.58s…
Total de testes: 16Testes errados: 12Taxa de acerto por tentativa: 41.7%Testes instáveis: 7…Tokens de saída: 38,682Tokens de raciocínio: 64,952Tempo de resposta: médio 36.84s · total 331.58s · máx. 174.55s
Resposta incorreta: 7Não seguiu as instruções: 2Sem resposta: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Resposta incorreta: 1Tempo de resposta (médio)27.09sTempo de resposta (máx.)27.09sTempo de resposta (total)27.09s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.invalid tool call: 1Tempo de resposta (médio)65.57sTempo de resposta (máx.)65.57sTempo de resposta (total)65.57s
Data parsing and extraction: 5.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem resposta: 1Tempo de resposta (médio)1.51sTempo de resposta (máx.)1.51sTempo de resposta (total)1.51s
Domain specific: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Sem resposta: 1Tempo de resposta (médio)174.55sTempo de resposta (máx.)174.55sTempo de resposta (total)174.55s
General Intelligence: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)18.14sTempo de resposta (máx.)18.14sTempo de resposta (total)18.14s
Instructions following: 5.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.97sTempo de resposta (máx.)2.97sTempo de resposta (total)2.97s
Puzzle Solving: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Não seguiu as instruções: 1Tempo de resposta (médio)12.90sTempo de resposta (máx.)22.33sTempo de resposta (total)25.80s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)15.95sTempo de resposta (máx.)15.95sTempo de resposta (total)15.95s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 2Resposta incorreta: 1Tempo de resposta (médio)34.45sTempo de resposta (máx.)79.86sTempo de resposta (total)310.09s…
Total de testes: 16Testes errados: 3Taxa de acerto por tentativa: 85.4%Testes instáveis: 1…Tokens de saída: 1,735Tokens de raciocínio: 77,212Tempo de resposta: médio 34.45s · total 310.09s · máx. 79.86s
Tempo esgotado: 2Resposta incorreta: 1
Anti-AI Tricks: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)10.37sTempo de resposta (máx.)10.37sTempo de resposta (total)10.37s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)46.85sTempo de resposta (máx.)46.85sTempo de resposta (total)46.85s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)46.91sTempo de resposta (máx.)46.91sTempo de resposta (total)46.91s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Resposta incorreta: 1Tempo de resposta (médio)17.50sTempo de resposta (máx.)17.50sTempo de resposta (total)17.50s
General Intelligence: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Tempo de resposta (médio)79.86sTempo de resposta (máx.)79.86sTempo de resposta (total)79.86s
Instructions following: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)31.93sTempo de resposta (máx.)31.93sTempo de resposta (total)31.93s
Puzzle Solving: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)34.57sTempo de resposta (máx.)49.12sTempo de resposta (total)69.13s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.54sTempo de resposta (máx.)7.54sTempo de resposta (total)7.54s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 4Resposta incorreta: 3Tempo esgotado: 1Tempo de resposta (médio)25.14sTempo de resposta (máx.)88.15sTempo de resposta (total)402.29s…
Total de testes: 16Testes errados: 8Taxa de acerto por tentativa: 58.3%Testes instáveis: 2…Tokens de saída: 5,826Tokens de raciocínio: 48,768Tempo de resposta: médio 25.14s · total 402.29s · máx. 88.15s
Não seguiu as instruções: 4Resposta incorreta: 3Tempo esgotado: 1
Anti-AI Tricks: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)16.45sTempo de resposta (máx.)26.00sTempo de resposta (total)49.36s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)88.15sTempo de resposta (máx.)88.15sTempo de resposta (total)88.15s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)12.58sTempo de resposta (máx.)13.87sTempo de resposta (total)25.16s
Domain specific: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo esgotado: 1Tempo de resposta (médio)44.63sTempo de resposta (máx.)82.55sTempo de resposta (total)133.89s
General Intelligence: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)13.50sTempo de resposta (máx.)13.50sTempo de resposta (total)13.50s
Instructions following: 7.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)15.66sTempo de resposta (máx.)21.80sTempo de resposta (total)31.32s
Puzzle Solving: 4.3Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Resposta incorreta: 1Tempo de resposta (médio)14.09sTempo de resposta (máx.)16.81sTempo de resposta (total)42.28s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)18.64sTempo de resposta (máx.)18.64sTempo de resposta (total)18.64s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)7.15sTempo de resposta (máx.)11.96sTempo de resposta (total)64.34s…
Total de testes: 16Testes errados: 3Taxa de acerto por tentativa: 81.3%Testes instáveis: 0…Tokens de saída: 1,502Tokens de raciocínio: 9,706Tempo de resposta: médio 7.15s · total 64.34s · máx. 11.96s
Resposta incorreta: 3
Anti-AI Tricks: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.75sTempo de resposta (máx.)3.75sTempo de resposta (total)3.75s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)10.37sTempo de resposta (máx.)10.37sTempo de resposta (total)10.37s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)10.84sTempo de resposta (máx.)10.84sTempo de resposta (total)10.84s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)7.01sTempo de resposta (máx.)7.01sTempo de resposta (total)7.01s
General Intelligence: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.34sTempo de resposta (máx.)9.34sTempo de resposta (total)9.34s
Instructions following: 9.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.26sTempo de resposta (máx.)3.26sTempo de resposta (total)3.26s
Puzzle Solving: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.91sTempo de resposta (máx.)4.23sTempo de resposta (total)7.81s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)11.96sTempo de resposta (máx.)11.96sTempo de resposta (total)11.96s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 9Não seguiu as instruções: 1Tempo de resposta (médio)1.48sTempo de resposta (máx.)2.89sTempo de resposta (total)23.64s…
Total de testes: 16Testes errados: 10Taxa de acerto por tentativa: 41.7%Testes instáveis: 2…Tokens de saída: 1,819Tokens de raciocínio: 0Tempo de resposta: médio 1.48s · total 23.64s · máx. 2.89s
Resposta incorreta: 9Não seguiu as instruções: 1
Anti-AI Tricks: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.41sTempo de resposta (máx.)2.58sTempo de resposta (total)4.23s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.89sTempo de resposta (máx.)2.89sTempo de resposta (total)2.89s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.04sTempo de resposta (máx.)1.06sTempo de resposta (total)2.08s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)1.07sTempo de resposta (máx.)1.54sTempo de resposta (total)3.22s
General Intelligence: 3.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.78sTempo de resposta (máx.)1.78sTempo de resposta (total)1.78s
Instructions following: 5.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.07sTempo de resposta (máx.)1.17sTempo de resposta (total)2.15s
Puzzle Solving: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Resposta incorreta: 1Tempo de resposta (médio)1.52sTempo de resposta (máx.)1.82sTempo de resposta (total)4.56s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.75sTempo de resposta (máx.)2.75sTempo de resposta (total)2.75s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Não seguiu as instruções: 2Sem resposta: 1Tempo esgotado: 1Tempo de resposta (médio)69.83sTempo de resposta (máx.)137.29sTempo de resposta (total)628.45s…
Total de testes: 16Testes errados: 7Taxa de acerto por tentativa: 72.9%Testes instáveis: 5…Tokens de saída: 38,453Tokens de raciocínio: 72,496Tempo de resposta: médio 69.83s · total 628.45s · máx. 137.29s
Anti-AI Tricks: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem resposta: 1Tempo de resposta (médio)85.28sTempo de resposta (máx.)85.28sTempo de resposta (total)85.28s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)71.37sTempo de resposta (máx.)71.37sTempo de resposta (total)71.37s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)49.78sTempo de resposta (máx.)49.78sTempo de resposta (total)49.78s
Domain specific: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo esgotado: 1Tempo de resposta (médio)137.29sTempo de resposta (máx.)137.29sTempo de resposta (total)137.29s
General Intelligence: 6.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)69.73sTempo de resposta (máx.)69.73sTempo de resposta (total)69.73s
Instructions following: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)92.47sTempo de resposta (máx.)92.47sTempo de resposta (total)92.47s
Puzzle Solving: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Resposta incorreta: 1Tempo de resposta (médio)45.40sTempo de resposta (máx.)82.75sTempo de resposta (total)90.79s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)31.74sTempo de resposta (máx.)31.74sTempo de resposta (total)31.74s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Não seguiu as instruções: 1Tempo de resposta (médio)7.03sTempo de resposta (máx.)38.52sTempo de resposta (total)112.51s…
Total de testes: 16Testes errados: 5Taxa de acerto por tentativa: 75.0%Testes instáveis: 2…Tokens de saída: 15,845Tokens de raciocínio: 0Tempo de resposta: médio 7.03s · total 112.51s · máx. 38.52s
Resposta incorreta: 4Não seguiu as instruções: 1
Anti-AI Tricks: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.97sTempo de resposta (máx.)4.78sTempo de resposta (total)11.90s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.12sTempo de resposta (máx.)9.12sTempo de resposta (total)9.12s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.05sTempo de resposta (máx.)3.33sTempo de resposta (total)6.10s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)17.78sTempo de resposta (máx.)38.52sTempo de resposta (total)53.33s
General Intelligence: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)3.20sTempo de resposta (máx.)3.20sTempo de resposta (total)3.20s
Instructions following: 6.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)5.46sTempo de resposta (máx.)6.45sTempo de resposta (total)10.92s
Puzzle Solving: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.42sTempo de resposta (máx.)5.04sTempo de resposta (total)13.27s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.68sTempo de resposta (máx.)4.68sTempo de resposta (total)4.68s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 3Resposta incorreta: 2Não seguiu as instruções: 1Tempo de resposta (médio)5.57sTempo de resposta (máx.)23.84sTempo de resposta (total)50.12s…
Total de testes: 16Testes errados: 6Taxa de acerto por tentativa: 66.7%Testes instáveis: 1…Tokens de saída: 6,895Tokens de raciocínio: 0Tempo de resposta: médio 5.57s · total 50.12s · máx. 23.84s
Formatação extra: 3Resposta incorreta: 2Não seguiu as instruções: 1
Anti-AI Tricks: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 2Tempo de resposta (médio)4.83sTempo de resposta (máx.)4.83sTempo de resposta (total)4.83s
Combined: 9.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)23.84sTempo de resposta (máx.)23.84sTempo de resposta (total)23.84s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.43sTempo de resposta (máx.)3.43sTempo de resposta (total)3.43s
Domain specific: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.54sTempo de resposta (máx.)3.54sTempo de resposta (total)3.54s
General Intelligence: 5.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.56sTempo de resposta (máx.)2.56sTempo de resposta (total)2.56s
Instructions following: 5.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.96sTempo de resposta (máx.)1.96sTempo de resposta (total)1.96s
Puzzle Solving: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 1Tempo de resposta (médio)2.92sTempo de resposta (máx.)3.33sTempo de resposta (total)5.84s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.11sTempo de resposta (máx.)4.11sTempo de resposta (total)4.11s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Não seguiu as instruções: 1Tempo de resposta (médio)12.35sTempo de resposta (máx.)95.48sTempo de resposta (total)197.62s…
Total de testes: 16Testes errados: 5Taxa de acerto por tentativa: 72.9%Testes instáveis: 1…Tokens de saída: 1,370Tokens de raciocínio: 110,522Tempo de resposta: médio 12.35s · total 197.62s · máx. 95.48s
Resposta incorreta: 4Não seguiu as instruções: 1
Anti-AI Tricks: 7.3Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)6.98sTempo de resposta (máx.)15.56sTempo de resposta (total)20.95s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)28.44sTempo de resposta (máx.)28.44sTempo de resposta (total)28.44s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.06sTempo de resposta (máx.)5.06sTempo de resposta (total)8.11s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)37.34sTempo de resposta (máx.)95.48sTempo de resposta (total)112.01s
General Intelligence: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.86sTempo de resposta (máx.)4.86sTempo de resposta (total)4.86s
Instructions following: 9.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.62sTempo de resposta (máx.)2.78sTempo de resposta (total)5.24s
Puzzle Solving: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.94sTempo de resposta (máx.)6.33sTempo de resposta (total)11.83s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.20sTempo de resposta (máx.)6.20sTempo de resposta (total)6.20s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 3Sem resposta: 1Tempo esgotado: 1Resposta incorreta: 1Tempo de resposta (médio)15.33sTempo de resposta (máx.)77.80sTempo de resposta (total)138.01s…
Total de testes: 16Testes errados: 6Taxa de acerto por tentativa: 75.0%Testes instáveis: 4…Tokens de saída: 2,220Tokens de raciocínio: 16,811Tempo de resposta: médio 15.33s · total 138.01s · máx. 77.80s
Não seguiu as instruções: 3Sem resposta: 1Tempo esgotado: 1Resposta incorreta: 1
Anti-AI Tricks: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)14.34sTempo de resposta (máx.)14.34sTempo de resposta (total)14.34s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)14.06sTempo de resposta (máx.)14.06sTempo de resposta (total)14.06s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.15sTempo de resposta (máx.)3.15sTempo de resposta (total)3.15s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Resposta incorreta: 1Tempo de resposta (médio)77.80sTempo de resposta (máx.)77.80sTempo de resposta (total)77.80s
General Intelligence: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.32sTempo de resposta (máx.)4.32sTempo de resposta (total)4.32s
Instructions following: 9.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.12sTempo de resposta (máx.)3.12sTempo de resposta (total)3.12s
Puzzle Solving: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)5.47sTempo de resposta (máx.)6.45sTempo de resposta (total)10.94s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem resposta: 1Tempo de resposta (médio)10.30sTempo de resposta (máx.)10.30sTempo de resposta (total)10.30s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Não seguiu as instruções: 2Tempo de resposta (médio)5.96sTempo de resposta (máx.)18.33sTempo de resposta (total)95.30s…
Total de testes: 16Testes errados: 6Taxa de acerto por tentativa: 70.8%Testes instáveis: 3…Tokens de saída: 19,272Tokens de raciocínio: 0Tempo de resposta: médio 5.96s · total 95.30s · máx. 18.33s
Resposta incorreta: 4Não seguiu as instruções: 2
Anti-AI Tricks: 7.3Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.72sTempo de resposta (máx.)7.35sTempo de resposta (total)14.17s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)11.96sTempo de resposta (máx.)11.96sTempo de resposta (total)11.96s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.21sTempo de resposta (máx.)2.52sTempo de resposta (total)4.42s
Domain specific: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)13.01sTempo de resposta (máx.)18.33sTempo de resposta (total)39.04s
General Intelligence: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.99sTempo de resposta (máx.)1.99sTempo de resposta (total)1.99s
Instructions following: 9.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.29sTempo de resposta (máx.)4.18sTempo de resposta (total)6.59s
Puzzle Solving: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.93sTempo de resposta (máx.)3.05sTempo de resposta (total)8.78s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)8.36sTempo de resposta (máx.)8.36sTempo de resposta (total)8.36s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)16.60sTempo de resposta (máx.)40.61sTempo de resposta (total)149.36s…
Total de testes: 16Testes errados: 1Taxa de acerto por tentativa: 93.8%Testes instáveis: 0…Tokens de saída: 1,521Tokens de raciocínio: 35,656Tempo de resposta: médio 16.60s · total 149.36s · máx. 40.61s
Resposta incorreta: 1
Anti-AI Tricks: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.52sTempo de resposta (máx.)9.52sTempo de resposta (total)9.52s
Combined: 9.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)40.61sTempo de resposta (máx.)40.61sTempo de resposta (total)40.61s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.72sTempo de resposta (máx.)7.72sTempo de resposta (total)7.72s
Domain specific: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)32.73sTempo de resposta (máx.)32.73sTempo de resposta (total)32.73s
General Intelligence: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)11.77sTempo de resposta (máx.)11.77sTempo de resposta (total)11.77s
Instructions following: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.56sTempo de resposta (máx.)9.56sTempo de resposta (total)9.56s
Puzzle Solving: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.15sTempo de resposta (máx.)8.49sTempo de resposta (total)14.30s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)23.15sTempo de resposta (máx.)23.15sTempo de resposta (total)23.15s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 2Tempo esgotado: 1Resposta incorreta: 1Tempo de resposta (médio)52.13sTempo de resposta (máx.)163.96sTempo de resposta (total)834.16s…
Total de testes: 16Testes errados: 4Taxa de acerto por tentativa: 81.3%Testes instáveis: 2…Tokens de saída: 1,658Tokens de raciocínio: 200,786Tempo de resposta: médio 52.13s · total 834.16s · máx. 163.96s
Não seguiu as instruções: 2Tempo esgotado: 1Resposta incorreta: 1
Anti-AI Tricks: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.69sTempo de resposta (máx.)10.84sTempo de resposta (total)29.06s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)163.96sTempo de resposta (máx.)163.96sTempo de resposta (total)163.96s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)30.26sTempo de resposta (máx.)32.03sTempo de resposta (total)60.52s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Resposta incorreta: 1Tempo de resposta (médio)79.53sTempo de resposta (máx.)95.52sTempo de resposta (total)238.59s
General Intelligence: 5.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)101.41sTempo de resposta (máx.)101.41sTempo de resposta (total)101.41s
Instructions following: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)19.66sTempo de resposta (máx.)32.25sTempo de resposta (total)39.32s
Puzzle Solving: 8.3Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)64.61sTempo de resposta (máx.)123.57sTempo de resposta (total)193.84s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.45sTempo de resposta (máx.)7.45sTempo de resposta (total)7.45s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo esgotado: 1Tempo de resposta (médio)29.74sTempo de resposta (máx.)119.29sTempo de resposta (total)475.83s…
Total de testes: 16Testes errados: 4Taxa de acerto por tentativa: 79.2%Testes instáveis: 2…Tokens de saída: 17,292Tokens de raciocínio: 145,625Tempo de resposta: médio 29.74s · total 475.83s · máx. 119.29s
Resposta incorreta: 3Tempo esgotado: 1
Anti-AI Tricks: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.99sTempo de resposta (máx.)11.62sTempo de resposta (total)20.98s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)107.79sTempo de resposta (máx.)107.79sTempo de resposta (total)107.79s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)23.41sTempo de resposta (máx.)29.79sTempo de resposta (total)46.83s
Domain specific: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)63.40sTempo de resposta (máx.)119.29sTempo de resposta (total)190.20s
General Intelligence: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Tempo de resposta (médio)34.11sTempo de resposta (máx.)34.11sTempo de resposta (total)34.11s
Instructions following: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.88sTempo de resposta (máx.)15.44sTempo de resposta (total)19.76s
Puzzle Solving: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)17.18sTempo de resposta (máx.)31.99sTempo de resposta (total)51.55s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.60sTempo de resposta (máx.)4.60sTempo de resposta (total)4.60s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 4Resposta incorreta: 2Erro de API: 1Sem resposta: 1Tempo de resposta (médio)43.93sTempo de resposta (máx.)106.00sTempo de resposta (total)702.85s…
Total de testes: 16Testes errados: 8Taxa de acerto por tentativa: 77.1%Testes instáveis: 7…Tokens de saída: 5,495Tokens de raciocínio: 169,266Tempo de resposta: médio 43.93s · total 702.85s · máx. 106.00s
Tempo esgotado: 4Resposta incorreta: 2Erro de API: 1Sem resposta: 1
Anti-AI Tricks: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)21.75sTempo de resposta (máx.)34.96sTempo de resposta (total)65.26s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem resposta: 1Tempo de resposta (médio)75.34sTempo de resposta (máx.)75.34sTempo de resposta (total)75.34s
Data parsing and extraction: 5.5Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)59.33sTempo de resposta (máx.)97.12sTempo de resposta (total)118.65s
Domain specific: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 2Resposta incorreta: 1Tempo de resposta (médio)88.34sTempo de resposta (máx.)106.00sTempo de resposta (total)265.01s
General Intelligence: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Tempo de resposta (médio)30.30sTempo de resposta (máx.)30.30sTempo de resposta (total)30.30s
Instructions following: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)24.45sTempo de resposta (máx.)43.36sTempo de resposta (total)48.89s
Puzzle Solving: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Resposta incorreta: 1Tempo de resposta (médio)31.58sTempo de resposta (máx.)60.18sTempo de resposta (total)94.75s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.65sTempo de resposta (máx.)4.65sTempo de resposta (total)4.65s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 2Resposta incorreta: 2Tempo de resposta (médio)16.59sTempo de resposta (máx.)100.93sTempo de resposta (total)265.39s…
Total de testes: 16Testes errados: 4Taxa de acerto por tentativa: 83.3%Testes instáveis: 2…Tokens de saída: 1,764Tokens de raciocínio: 33,348Tempo de resposta: médio 16.59s · total 265.39s · máx. 100.93s
Não seguiu as instruções: 2Resposta incorreta: 2
Anti-AI Tricks: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.69sTempo de resposta (máx.)6.68sTempo de resposta (total)14.06s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)19.56sTempo de resposta (máx.)19.56sTempo de resposta (total)19.56s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.07sTempo de resposta (máx.)3.59sTempo de resposta (total)6.15s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)64.31sTempo de resposta (máx.)100.93sTempo de resposta (total)192.94s
General Intelligence: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.87sTempo de resposta (máx.)4.87sTempo de resposta (total)4.87s
Instructions following: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.04sTempo de resposta (máx.)3.44sTempo de resposta (total)6.07s
Puzzle Solving: 9.3Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)5.12sTempo de resposta (máx.)8.73sTempo de resposta (total)15.37s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.37sTempo de resposta (máx.)6.37sTempo de resposta (total)6.37s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 5Não seguiu as instruções: 3Tempo esgotado: 2invalid tool call: 1Tempo de resposta (médio)43.03sTempo de resposta (máx.)237.27sTempo de resposta (total)387.25s…
Total de testes: 16Testes errados: 11Taxa de acerto por tentativa: 60.4%Testes instáveis: 9…Tokens de saída: 107,044Tokens de raciocínio: 206,190Tempo de resposta: médio 43.03s · total 387.25s · máx. 237.27s
Resposta incorreta: 5Não seguiu as instruções: 3Tempo esgotado: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 9.3Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)32.42sTempo de resposta (máx.)32.42sTempo de resposta (total)32.42s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.invalid tool call: 1Tempo de resposta (médio)60.39sTempo de resposta (máx.)60.39sTempo de resposta (total)60.39s
Data parsing and extraction: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)7.48sTempo de resposta (máx.)7.48sTempo de resposta (total)7.48s
Domain specific: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo esgotado: 1Tempo de resposta (médio)237.27sTempo de resposta (máx.)237.27sTempo de resposta (total)237.27s
General Intelligence: 3.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)6.63sTempo de resposta (máx.)6.63sTempo de resposta (total)6.63s
Instructions following: 8.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.64sTempo de resposta (máx.)4.64sTempo de resposta (total)4.64s
Puzzle Solving: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Resposta incorreta: 1Tempo de resposta (médio)11.54sTempo de resposta (máx.)17.37sTempo de resposta (total)23.08s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)15.35sTempo de resposta (máx.)15.35sTempo de resposta (total)15.35s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 2Resposta incorreta: 2Tempo de resposta (médio)20.05sTempo de resposta (máx.)100.41sTempo de resposta (total)320.87s…
Total de testes: 16Testes errados: 4Taxa de acerto por tentativa: 83.3%Testes instáveis: 3…Tokens de saída: 1,756Tokens de raciocínio: 46,642Tempo de resposta: médio 20.05s · total 320.87s · máx. 100.41s
Não seguiu as instruções: 2Resposta incorreta: 2
Anti-AI Tricks: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.02sTempo de resposta (máx.)6.42sTempo de resposta (total)15.06s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)20.57sTempo de resposta (máx.)20.57sTempo de resposta (total)20.57s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.32sTempo de resposta (máx.)5.40sTempo de resposta (total)10.64s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)74.27sTempo de resposta (máx.)100.41sTempo de resposta (total)222.80s
General Intelligence: 5.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.92sTempo de resposta (máx.)4.92sTempo de resposta (total)4.92s
Instructions following: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.11sTempo de resposta (máx.)3.68sTempo de resposta (total)6.22s
Puzzle Solving: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)9.13sTempo de resposta (máx.)18.14sTempo de resposta (total)27.39s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)13.28sTempo de resposta (máx.)13.28sTempo de resposta (total)13.28s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 2Tempo esgotado: 1Resposta incorreta: 1Tempo de resposta (médio)11.23sTempo de resposta (máx.)46.35sTempo de resposta (total)89.84s…
Total de testes: 16Testes errados: 4Taxa de acerto por tentativa: 77.1%Testes instáveis: 1…Tokens de saída: 35,159Tokens de raciocínio: 24,687Tempo de resposta: médio 11.23s · total 89.84s · máx. 46.35s
Anti-AI Tricks: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 1Tempo de resposta (médio)4.95sTempo de resposta (máx.)4.95sTempo de resposta (total)4.95s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)46.35sTempo de resposta (máx.)46.35sTempo de resposta (total)46.35s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)13.90sTempo de resposta (máx.)13.90sTempo de resposta (total)13.90s
Domain specific: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 1Tempo esgotado: 1Resposta incorreta: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
General Intelligence: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.94sTempo de resposta (máx.)4.94sTempo de resposta (total)4.94s
Instructions following: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.61sTempo de resposta (máx.)2.61sTempo de resposta (total)2.61s
Puzzle Solving: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.80sTempo de resposta (máx.)5.22sTempo de resposta (total)9.60s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.48sTempo de resposta (máx.)7.48sTempo de resposta (total)7.48s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 4Resposta incorreta: 2Tempo de resposta (médio)22.86sTempo de resposta (máx.)83.40sTempo de resposta (total)205.71s…
Total de testes: 16Testes errados: 6Taxa de acerto por tentativa: 66.7%Testes instáveis: 2…Tokens de saída: 26,254Tokens de raciocínio: 17,363Tempo de resposta: médio 22.86s · total 205.71s · máx. 83.40s
Formatação extra: 4Resposta incorreta: 2
Anti-AI Tricks: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 2Tempo de resposta (médio)11.88sTempo de resposta (máx.)11.88sTempo de resposta (total)11.88s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)76.66sTempo de resposta (máx.)76.66sTempo de resposta (total)76.66s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.37sTempo de resposta (máx.)7.37sTempo de resposta (total)7.37s
Domain specific: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 2Resposta incorreta: 1Tempo de resposta (médio)83.40sTempo de resposta (máx.)83.40sTempo de resposta (total)83.40s
General Intelligence: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.04sTempo de resposta (máx.)5.04sTempo de resposta (total)5.04s
Instructions following: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.43sTempo de resposta (máx.)2.43sTempo de resposta (total)2.43s
Puzzle Solving: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.60sTempo de resposta (máx.)4.66sTempo de resposta (total)9.20s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.73sTempo de resposta (máx.)9.73sTempo de resposta (total)9.73s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Não seguiu as instruções: 1Tempo de resposta (médio)68.83sTempo de resposta (máx.)280.52sTempo de resposta (total)1101.32s…
Total de testes: 16Testes errados: 4Taxa de acerto por tentativa: 77.1%Testes instáveis: 1…Tokens de saída: 1,283Tokens de raciocínio: 1,533,310Tempo de resposta: médio 68.83s · total 1101.32s · máx. 280.52s
Resposta incorreta: 3Não seguiu as instruções: 1
Anti-AI Tricks: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)43.87sTempo de resposta (máx.)121.88sTempo de resposta (total)131.62s
Combined: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)280.52sTempo de resposta (máx.)280.52sTempo de resposta (total)280.52s
Data parsing and extraction: 9.9Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.16sTempo de resposta (máx.)8.54sTempo de resposta (total)14.31s
Domain specific: 4.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)127.58sTempo de resposta (máx.)133.93sTempo de resposta (total)382.74s
General Intelligence: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.25sTempo de resposta (máx.)5.25sTempo de resposta (total)5.25s
Instructions following: 9.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)70.07sTempo de resposta (máx.)136.53sTempo de resposta (total)140.14s
Puzzle Solving: 7.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)46.33sTempo de resposta (máx.)134.22sTempo de resposta (total)139.00s
Tool Calling: 10.0Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.73sTempo de resposta (máx.)7.73sTempo de resposta (total)7.73s