Total de testes: 18Testes errados: 9Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 51.9%Testes instáveis: 1…Tokens de saída: 1,611Tokens de raciocínio: 0Tempo de resposta: médio 23.34s · total 420.04s · máx. 109.46s
Truques anti-IA
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Formatação extra: 1Tempo de resposta (médio)36.12sTempo de resposta (máx.)109.46sTempo de resposta (total)144.50s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)33.40sTempo de resposta (máx.)33.40sTempo de resposta (total)33.40s
Combinado
: 9.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)34.55sTempo de resposta (máx.)34.55sTempo de resposta (total)34.55s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)54.04sTempo de resposta (máx.)105.46sTempo de resposta (total)108.08s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)3.08sTempo de resposta (máx.)6.59sTempo de resposta (total)9.24s
Inteligência geral
: 4.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)6.06sTempo de resposta (máx.)6.06sTempo de resposta (total)6.06s
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)9.47sTempo de resposta (máx.)13.43sTempo de resposta (total)18.95s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.47sTempo de resposta (máx.)6.47sTempo de resposta (total)6.47s
Total de testes: 18Testes errados: 9Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 64.8%Testes instáveis: 6…Tokens de saída: 2,010Tokens de raciocínio: 91,298Tempo de resposta: médio 23.88s · total 262.66s · máx. 121.79s
Truques anti-IA
: 8.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.81sTempo de resposta (máx.)5.65sTempo de resposta (total)7.62s
Programação
: 2.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)23.58sTempo de resposta (máx.)23.58sTempo de resposta (total)23.58s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)37.64sTempo de resposta (máx.)37.64sTempo de resposta (total)37.64s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.63sTempo de resposta (máx.)6.63sTempo de resposta (total)6.63s
Inteligência geral
: 4.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)16.25sTempo de resposta (máx.)16.25sTempo de resposta (total)16.25s
Seguimento de instruções
: 6.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)5.30sTempo de resposta (máx.)5.30sTempo de resposta (total)5.30s
Chamada de ferramentas
: 2.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem resposta: 1Tempo de resposta (médio)27.71sTempo de resposta (máx.)27.71sTempo de resposta (total)27.71s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 9Tempo de resposta (médio)4.23sTempo de resposta (máx.)11.07sTempo de resposta (total)46.51s…
Total de testes: 18Testes errados: 9Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 51.9%Testes instáveis: 1…Tokens de saída: 1,959Tokens de raciocínio: 0Tempo de resposta: médio 4.23s · total 46.51s · máx. 11.07s
Truques anti-IA
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)2.37sTempo de resposta (máx.)3.39sTempo de resposta (total)4.75s
Programação
: 5.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)8.84sTempo de resposta (máx.)8.84sTempo de resposta (total)8.84s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.98sTempo de resposta (máx.)4.98sTempo de resposta (total)4.98s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.78sTempo de resposta (máx.)5.78sTempo de resposta (total)5.78s
Específico do domínio
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)2.24sTempo de resposta (máx.)2.24sTempo de resposta (total)2.24s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.27sTempo de resposta (máx.)3.27sTempo de resposta (total)3.27s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.48sTempo de resposta (máx.)1.48sTempo de resposta (total)1.48s
Resolução de quebra-cabeças
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.05sTempo de resposta (máx.)2.08sTempo de resposta (total)4.10s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)11.07sTempo de resposta (máx.)11.07sTempo de resposta (total)11.07s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 6Não seguiu as instruções: 4Tempo de resposta (médio)2.21sTempo de resposta (máx.)14.63sTempo de resposta (total)37.51s…
Total de testes: 18Testes errados: 10Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 53.7%Testes instáveis: 3…Tokens de saída: 3,972Tokens de raciocínio: 48,333Tempo de resposta: médio 2.21s · total 37.51s · máx. 14.63s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.53sTempo de resposta (máx.)1.53sTempo de resposta (total)1.53s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.28sTempo de resposta (máx.)3.28sTempo de resposta (total)3.28s
Análise e extração de dados
: 7.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.11sTempo de resposta (máx.)1.47sTempo de resposta (total)2.21s
Específico do domínio
: 2.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)6.48sTempo de resposta (máx.)14.63sTempo de resposta (total)19.43s
Inteligência geral
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)821msTempo de resposta (máx.)821msTempo de resposta (total)821ms
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.07sTempo de resposta (máx.)1.07sTempo de resposta (total)1.07s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.89sTempo de resposta (máx.)1.89sTempo de resposta (total)1.89s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 8Não seguiu as instruções: 2Tempo de resposta (médio)1.99sTempo de resposta (máx.)6.81sTempo de resposta (total)35.81s…
Total de testes: 18Testes errados: 10Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 44.4%Testes instáveis: 0…Tokens de saída: 868Tokens de raciocínio: 0Tempo de resposta: médio 1.99s · total 35.81s · máx. 6.81s
Truques anti-IA
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.10sTempo de resposta (máx.)2.08sTempo de resposta (total)4.39s
Programação
: 6.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.72sTempo de resposta (máx.)1.72sTempo de resposta (total)1.72s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.47sTempo de resposta (máx.)2.47sTempo de resposta (total)2.47s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.69sTempo de resposta (máx.)2.46sTempo de resposta (total)3.38s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)1.14sTempo de resposta (máx.)1.63sTempo de resposta (total)3.41s
Inteligência geral
: 4.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.19sTempo de resposta (máx.)1.19sTempo de resposta (total)1.19s
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.18sTempo de resposta (máx.)6.81sTempo de resposta (total)8.36s
Resolução de quebra-cabeças
: 8.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.71sTempo de resposta (máx.)5.96sTempo de resposta (total)8.14s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.76sTempo de resposta (máx.)2.76sTempo de resposta (total)2.76s
Total de testes: 18Testes errados: 11Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 57.4%Testes instáveis: 6…Tokens de saída: 299,034Tokens de raciocínio: 309,670Tempo de resposta: médio 9.80s · total 156.75s · máx. 35.28s
Truques anti-IA
: 6.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 1Resposta incorreta: 1Tempo de resposta (médio)3.46sTempo de resposta (máx.)4.38sTempo de resposta (total)13.86s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)27.11sTempo de resposta (máx.)27.11sTempo de resposta (total)27.11s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.54sTempo de resposta (máx.)7.51sTempo de resposta (total)11.08s
Inteligência geral
: 5.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)6.40sTempo de resposta (máx.)6.40sTempo de resposta (total)6.40s
Seguimento de instruções
: 8.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.63sTempo de resposta (máx.)5.46sTempo de resposta (total)9.26s
Resolução de quebra-cabeças
: 7.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 2Tempo de resposta (médio)5.01sTempo de resposta (máx.)5.49sTempo de resposta (total)15.03s
Chamada de ferramentas
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
Total de testes: 18Testes errados: 11Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 59.3%Testes instáveis: 8…Tokens de saída: 4,980Tokens de raciocínio: 156,288Tempo de resposta: médio 44.13s · total 485.47s · máx. 204.02s
Truques anti-IA
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)25.50sTempo de resposta (máx.)37.73sTempo de resposta (total)51.00s
Programação
: 6.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)40.73sTempo de resposta (máx.)40.73sTempo de resposta (total)40.73s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)65.96sTempo de resposta (máx.)65.96sTempo de resposta (total)65.96s
Análise e extração de dados
: 3.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)21.42sTempo de resposta (máx.)21.42sTempo de resposta (total)21.42s
Inteligência geral
: 4.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)17.51sTempo de resposta (máx.)17.51sTempo de resposta (total)17.51s
Seguimento de instruções
: 8.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)11.90sTempo de resposta (máx.)11.90sTempo de resposta (total)11.90s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)33.30sTempo de resposta (máx.)33.30sTempo de resposta (total)33.30s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 8Não seguiu as instruções: 2Tempo de resposta (médio)3.10sTempo de resposta (máx.)6.51sTempo de resposta (total)55.87s…
Total de testes: 18Testes errados: 10Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 44.4%Testes instáveis: 0…Tokens de saída: 1,724Tokens de raciocínio: 0Tempo de resposta: médio 3.10s · total 55.87s · máx. 6.51s
Truques anti-IA
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)3.13sTempo de resposta (máx.)5.90sTempo de resposta (total)12.50s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.30sTempo de resposta (máx.)5.30sTempo de resposta (total)5.30s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)6.51sTempo de resposta (máx.)6.51sTempo de resposta (total)6.51s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.81sTempo de resposta (máx.)5.69sTempo de resposta (total)7.62s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)2.09sTempo de resposta (máx.)2.39sTempo de resposta (total)6.26s
Inteligência geral
: 4.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.22sTempo de resposta (máx.)2.22sTempo de resposta (total)2.22s
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.97sTempo de resposta (máx.)2.43sTempo de resposta (total)3.93s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.86sTempo de resposta (máx.)4.86sTempo de resposta (total)4.86s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 9Não seguiu as instruções: 1Tempo de resposta (médio)3.25sTempo de resposta (máx.)13.73sTempo de resposta (total)58.44s…
Total de testes: 18Testes errados: 10Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 46.3%Testes instáveis: 1…Tokens de saída: 4,266Tokens de raciocínio: 0Tempo de resposta: médio 3.25s · total 58.44s · máx. 13.73s
Truques anti-IA
: 3.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)1.32sTempo de resposta (máx.)3.89sTempo de resposta (total)5.30s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.29sTempo de resposta (máx.)1.29sTempo de resposta (total)1.29s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)6.22sTempo de resposta (máx.)6.22sTempo de resposta (total)6.22s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.57sTempo de resposta (máx.)1.83sTempo de resposta (total)3.14s
Específico do domínio
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)905msTempo de resposta (máx.)1.10sTempo de resposta (total)2.71s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)803msTempo de resposta (máx.)803msTempo de resposta (total)803ms
Seguimento de instruções
: 6.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)8.81sTempo de resposta (máx.)13.73sTempo de resposta (total)17.61s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.67sTempo de resposta (máx.)3.67sTempo de resposta (total)3.67s
Total de testes: 18Testes errados: 11Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 48.2%Testes instáveis: 3…Tokens de saída: 1,783Tokens de raciocínio: 0Tempo de resposta: médio 6.59s · total 118.61s · máx. 57.10s
Truques anti-IA
: 8.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.28sTempo de resposta (máx.)2.09sTempo de resposta (total)5.13s
Programação
: 4.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Tempo de resposta (médio)7.07sTempo de resposta (máx.)7.07sTempo de resposta (total)7.07s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)30.53sTempo de resposta (máx.)30.53sTempo de resposta (total)30.53s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.70sTempo de resposta (máx.)2.21sTempo de resposta (total)3.41s
Específico do domínio
: 3.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)2.49sTempo de resposta (máx.)4.23sTempo de resposta (total)7.48s
Inteligência geral
: 4.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)3.54sTempo de resposta (máx.)3.54sTempo de resposta (total)3.54s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)57.10sTempo de resposta (máx.)57.10sTempo de resposta (total)57.10s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 10Tempo de resposta (médio)2.53sTempo de resposta (máx.)6.70sTempo de resposta (total)45.46s…
Total de testes: 18Testes errados: 10Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 55.6%Testes instáveis: 5…Tokens de saída: 3,129Tokens de raciocínio: 0Tempo de resposta: médio 2.53s · total 45.46s · máx. 6.70s
Truques anti-IA
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)2.43sTempo de resposta (máx.)6.70sTempo de resposta (total)9.73s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.61sTempo de resposta (máx.)4.61sTempo de resposta (total)4.61s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)6.59sTempo de resposta (máx.)6.59sTempo de resposta (total)6.59s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.82sTempo de resposta (máx.)1.97sTempo de resposta (total)3.63s
Específico do domínio
: 3.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.33sTempo de resposta (máx.)1.53sTempo de resposta (total)4.00s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.45sTempo de resposta (máx.)3.45sTempo de resposta (total)3.45s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.06sTempo de resposta (máx.)1.09sTempo de resposta (total)2.12s
Resolução de quebra-cabeças
: 5.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)2.46sTempo de resposta (máx.)4.23sTempo de resposta (total)7.37s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.94sTempo de resposta (máx.)3.94sTempo de resposta (total)3.94s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 10Não seguiu as instruções: 1Tempo de resposta (médio)903msTempo de resposta (máx.)4.39sTempo de resposta (total)16.26s…
Total de testes: 18Testes errados: 11Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 44.4%Testes instáveis: 2…Tokens de saída: 1,726Tokens de raciocínio: 0Tempo de resposta: médio 903ms · total 16.26s · máx. 4.39s
Truques anti-IA
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)582msTempo de resposta (máx.)844msTempo de resposta (total)2.33s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.16sTempo de resposta (máx.)1.16sTempo de resposta (total)1.16s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.39sTempo de resposta (máx.)4.39sTempo de resposta (total)4.39s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)652msTempo de resposta (máx.)660msTempo de resposta (total)1.30s
Específico do domínio
: 5.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)495msTempo de resposta (máx.)642msTempo de resposta (total)1.49s
Inteligência geral
: 5.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)615msTempo de resposta (máx.)615msTempo de resposta (total)615ms
Seguimento de instruções
: 8.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)672msTempo de resposta (máx.)785msTempo de resposta (total)1.34s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.91sTempo de resposta (máx.)1.91sTempo de resposta (total)1.91s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 9Não seguiu as instruções: 2Tempo de resposta (médio)3.82sTempo de resposta (máx.)47.43sTempo de resposta (total)68.74s…
Total de testes: 18Testes errados: 11Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 50.0%Testes instáveis: 3…Tokens de saída: 4,300Tokens de raciocínio: 0Tempo de resposta: médio 3.82s · total 68.74s · máx. 47.43s
Truques anti-IA
: 3.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)1.43sTempo de resposta (máx.)4.39sTempo de resposta (total)5.71s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.67sTempo de resposta (máx.)2.67sTempo de resposta (total)2.67s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)47.43sTempo de resposta (máx.)47.43sTempo de resposta (total)47.43s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.16sTempo de resposta (máx.)1.42sTempo de resposta (total)2.33s
Específico do domínio
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)485msTempo de resposta (máx.)549msTempo de resposta (total)1.45s
Inteligência geral
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.19sTempo de resposta (máx.)1.19sTempo de resposta (total)1.19s
Seguimento de instruções
: 6.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)809msTempo de resposta (máx.)983msTempo de resposta (total)1.62s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.30sTempo de resposta (máx.)2.30sTempo de resposta (total)2.30s
Total de testes: 18Testes errados: 11Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 46.3%Testes instáveis: 3…Tokens de saída: 8,378Tokens de raciocínio: 0Tempo de resposta: médio 12.07s · total 217.28s · máx. 115.89s
Truques anti-IA
: 3.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 2Resposta incorreta: 2Tempo de resposta (médio)7.63sTempo de resposta (máx.)12.26sTempo de resposta (total)30.54s
Programação
: 2.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)7.63sTempo de resposta (máx.)7.63sTempo de resposta (total)7.63s
Combinado
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Chamada de ferramenta inválida: 1Tempo de resposta (médio)115.89sTempo de resposta (máx.)115.89sTempo de resposta (total)115.89s
Análise e extração de dados
: 6.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)9.42sTempo de resposta (máx.)16.20sTempo de resposta (total)18.84s
Específico do domínio
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.52sTempo de resposta (máx.)1.77sTempo de resposta (total)4.55s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.86sTempo de resposta (máx.)2.86sTempo de resposta (total)2.86s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.52sTempo de resposta (máx.)1.99sTempo de resposta (total)3.04s
Resolução de quebra-cabeças
: 8.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)7.37sTempo de resposta (máx.)10.78sTempo de resposta (total)22.10s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)11.85sTempo de resposta (máx.)11.85sTempo de resposta (total)11.85s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 9Não seguiu as instruções: 2Tempo de resposta (médio)2.39sTempo de resposta (máx.)6.58sTempo de resposta (total)43.06s…
Total de testes: 18Testes errados: 11Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 48.2%Testes instáveis: 3…Tokens de saída: 2,320Tokens de raciocínio: 0Tempo de resposta: médio 2.39s · total 43.06s · máx. 6.58s
Truques anti-IA
: 3.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)1.80sTempo de resposta (máx.)2.62sTempo de resposta (total)7.19s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.82sTempo de resposta (máx.)3.82sTempo de resposta (total)3.82s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)6.58sTempo de resposta (máx.)6.58sTempo de resposta (total)6.58s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.39sTempo de resposta (máx.)1.42sTempo de resposta (total)2.78s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)1.78sTempo de resposta (máx.)2.49sTempo de resposta (total)5.34s
Inteligência geral
: 4.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.44sTempo de resposta (máx.)2.44sTempo de resposta (total)2.44s
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.51sTempo de resposta (máx.)2.95sTempo de resposta (total)5.02s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.39sTempo de resposta (máx.)4.39sTempo de resposta (total)4.39s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 10Não seguiu as instruções: 1Tempo de resposta (médio)1.51sTempo de resposta (máx.)2.95sTempo de resposta (total)27.21s…
Total de testes: 18Testes errados: 11Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 42.6%Testes instáveis: 2…Tokens de saída: 2,317Tokens de raciocínio: 0Tempo de resposta: médio 1.51s · total 27.21s · máx. 2.95s
Truques anti-IA
: 3.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)1.21sTempo de resposta (máx.)2.58sTempo de resposta (total)4.85s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.95sTempo de resposta (máx.)2.95sTempo de resposta (total)2.95s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.89sTempo de resposta (máx.)2.89sTempo de resposta (total)2.89s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.04sTempo de resposta (máx.)1.06sTempo de resposta (total)2.08s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)1.07sTempo de resposta (máx.)1.54sTempo de resposta (total)3.22s
Inteligência geral
: 4.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.78sTempo de resposta (máx.)1.78sTempo de resposta (total)1.78s
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.07sTempo de resposta (máx.)1.17sTempo de resposta (total)2.15s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.75sTempo de resposta (máx.)2.75sTempo de resposta (total)2.75s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 10Não seguiu as instruções: 2Tempo de resposta (médio)1.74sTempo de resposta (máx.)9.39sTempo de resposta (total)31.32s…
Total de testes: 18Testes errados: 12Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 38.9%Testes instáveis: 2…Tokens de saída: 3,545Tokens de raciocínio: 0Tempo de resposta: médio 1.74s · total 31.32s · máx. 9.39s
Truques anti-IA
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)788msTempo de resposta (máx.)1.34sTempo de resposta (total)3.15s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.51sTempo de resposta (máx.)2.51sTempo de resposta (total)2.51s
Combinado
: 2.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)9.39sTempo de resposta (máx.)9.39sTempo de resposta (total)9.39s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.43sTempo de resposta (máx.)1.45sTempo de resposta (total)2.86s
Específico do domínio
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)540msTempo de resposta (máx.)649msTempo de resposta (total)1.62s
Inteligência geral
: 5.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.51sTempo de resposta (máx.)2.51sTempo de resposta (total)2.51s
Seguimento de instruções
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)815msTempo de resposta (máx.)973msTempo de resposta (total)1.63s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.54sTempo de resposta (máx.)3.54sTempo de resposta (total)3.54s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 7Não seguiu as instruções: 4Tempo de resposta (médio)16.08sTempo de resposta (máx.)50.92sTempo de resposta (total)176.88s…
Total de testes: 18Testes errados: 11Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 51.9%Testes instáveis: 6…Tokens de saída: 13,493Tokens de raciocínio: 36,879Tempo de resposta: médio 16.08s · total 176.88s · máx. 50.92s
Programação
: 4.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)26.33sTempo de resposta (máx.)26.33sTempo de resposta (total)26.33s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)31.18sTempo de resposta (máx.)31.18sTempo de resposta (total)31.18s
Análise e extração de dados
: 6.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.98sTempo de resposta (máx.)1.98sTempo de resposta (total)1.98s
Específico do domínio
: 2.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)50.92sTempo de resposta (máx.)50.92sTempo de resposta (total)50.92s
Inteligência geral
: 4.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)7.90sTempo de resposta (máx.)7.90sTempo de resposta (total)7.90s
Seguimento de instruções
: 9.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.63sTempo de resposta (máx.)7.63sTempo de resposta (total)7.63s
Chamada de ferramentas
: 9.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.91sTempo de resposta (máx.)6.91sTempo de resposta (total)6.91s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 8Não seguiu as instruções: 3Tempo de resposta (médio)2.05sTempo de resposta (máx.)6.65sTempo de resposta (total)36.93s…
Total de testes: 18Testes errados: 11Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 42.6%Testes instáveis: 2…Tokens de saída: 2,973Tokens de raciocínio: 0Tempo de resposta: médio 2.05s · total 36.93s · máx. 6.65s
Truques anti-IA
: 4.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.39sTempo de resposta (máx.)2.96sTempo de resposta (total)5.56s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.65sTempo de resposta (máx.)6.65sTempo de resposta (total)6.65s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.38sTempo de resposta (máx.)3.38sTempo de resposta (total)3.38s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.32sTempo de resposta (máx.)1.39sTempo de resposta (total)2.64s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)1.48sTempo de resposta (máx.)1.85sTempo de resposta (total)4.45s
Inteligência geral
: 5.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.55sTempo de resposta (máx.)1.55sTempo de resposta (total)1.55s
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.64sTempo de resposta (máx.)1.80sTempo de resposta (total)3.28s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.46sTempo de resposta (máx.)4.46sTempo de resposta (total)4.46s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 10Não seguiu as instruções: 2Tempo de resposta (médio)1.51sTempo de resposta (máx.)3.54sTempo de resposta (total)27.21s…
Total de testes: 18Testes errados: 12Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 46.3%Testes instáveis: 4…Tokens de saída: 2,451Tokens de raciocínio: 0Tempo de resposta: médio 1.51s · total 27.21s · máx. 3.54s
Truques anti-IA
: 2.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)1.29sTempo de resposta (máx.)2.83sTempo de resposta (total)5.18s
Programação
: 6.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.39sTempo de resposta (máx.)2.39sTempo de resposta (total)2.39s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)3.54sTempo de resposta (máx.)3.54sTempo de resposta (total)3.54s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.32sTempo de resposta (máx.)1.42sTempo de resposta (total)2.64s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)877msTempo de resposta (máx.)904msTempo de resposta (total)2.63s
Inteligência geral
: 4.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.53sTempo de resposta (máx.)1.53sTempo de resposta (total)1.53s
Seguimento de instruções
: 6.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.03sTempo de resposta (máx.)1.10sTempo de resposta (total)2.06s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.30sTempo de resposta (máx.)3.30sTempo de resposta (total)3.30s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 11Não seguiu as instruções: 1Tempo de resposta (médio)3.69sTempo de resposta (máx.)46.00sTempo de resposta (total)66.50s…
Total de testes: 18Testes errados: 12Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 38.9%Testes instáveis: 2…Tokens de saída: 3,341Tokens de raciocínio: 0Tempo de resposta: médio 3.69s · total 66.50s · máx. 46.00s
Truques anti-IA
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.59sTempo de resposta (máx.)3.60sTempo de resposta (total)6.38s
Programação
: 4.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.44sTempo de resposta (máx.)3.44sTempo de resposta (total)3.44s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)46.00sTempo de resposta (máx.)46.00sTempo de resposta (total)46.00s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.01sTempo de resposta (máx.)1.06sTempo de resposta (total)2.02s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)465msTempo de resposta (máx.)492msTempo de resposta (total)1.39s
Inteligência geral
: 5.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.12sTempo de resposta (máx.)1.12sTempo de resposta (total)1.12s
Seguimento de instruções
: 4.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)585msTempo de resposta (máx.)715msTempo de resposta (total)1.17s
Resolução de quebra-cabeças
: 5.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)982msTempo de resposta (máx.)1.36sTempo de resposta (total)2.95s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.04sTempo de resposta (máx.)2.04sTempo de resposta (total)2.04s
Total de testes: 18Testes errados: 13Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 57.4%Testes instáveis: 10…Tokens de saída: 107,044Tokens de raciocínio: 206,422Tempo de resposta: médio 39.65s · total 396.47s · máx. 237.27s
Programação
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
Combinado
: 4.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Chamada de ferramenta inválida: 1Tempo de resposta (médio)60.39sTempo de resposta (máx.)60.39sTempo de resposta (total)60.39s
Análise e extração de dados
: 4.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)7.48sTempo de resposta (máx.)7.48sTempo de resposta (total)7.48s
Inteligência geral
: 3.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)6.63sTempo de resposta (máx.)6.63sTempo de resposta (total)6.63s
Seguimento de instruções
: 8.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.64sTempo de resposta (máx.)4.64sTempo de resposta (total)4.64s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)15.35sTempo de resposta (máx.)15.35sTempo de resposta (total)15.35s
Total de testes: 18Testes errados: 12Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 46.3%Testes instáveis: 4…Tokens de saída: 2,278Tokens de raciocínio: 0Tempo de resposta: médio 4.58s · total 77.92s · máx. 15.17s
Truques anti-IA
: 3.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)3.81sTempo de resposta (máx.)6.85sTempo de resposta (total)15.23s
Programação
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)15.17sTempo de resposta (máx.)15.17sTempo de resposta (total)15.17s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)8.49sTempo de resposta (máx.)14.02sTempo de resposta (total)16.98s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)2.33sTempo de resposta (máx.)2.94sTempo de resposta (total)6.99s
Inteligência geral
: 6.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.71sTempo de resposta (máx.)2.71sTempo de resposta (total)2.71s
Seguimento de instruções
: 6.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.82sTempo de resposta (máx.)2.92sTempo de resposta (total)5.65s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.02sTempo de resposta (máx.)6.02sTempo de resposta (total)6.02s
Total de testes: 18Testes errados: 13Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 50.0%Testes instáveis: 7…Tokens de saída: 15,084Tokens de raciocínio: 39,408Tempo de resposta: médio 5.64s · total 101.52s · máx. 30.49s
Truques anti-IA
: 5.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)2.67sTempo de resposta (máx.)5.03sTempo de resposta (total)10.66s
Programação
: 6.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)30.49sTempo de resposta (máx.)30.49sTempo de resposta (total)30.49s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)25.25sTempo de resposta (máx.)25.25sTempo de resposta (total)25.25s
Análise e extração de dados
: 7.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)1.23sTempo de resposta (máx.)1.96sTempo de resposta (total)2.46s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Resposta incorreta: 1Tempo de resposta (médio)6.11sTempo de resposta (máx.)13.72sTempo de resposta (total)18.34s
Inteligência geral
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.05sTempo de resposta (máx.)2.05sTempo de resposta (total)2.05s
Seguimento de instruções
: 7.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.38sTempo de resposta (máx.)1.61sTempo de resposta (total)2.75s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.50sTempo de resposta (máx.)3.50sTempo de resposta (total)3.50s
Total de testes: 18Testes errados: 13Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 37.0%Testes instáveis: 3…Tokens de saída: 2,489Tokens de raciocínio: 0Tempo de resposta: médio 3.35s · total 36.90s · máx. 7.05s
Truques anti-IA
: 5.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)5.51sTempo de resposta (máx.)6.59sTempo de resposta (total)11.02s
Programação
: 6.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)5.57sTempo de resposta (máx.)5.57sTempo de resposta (total)5.57s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Chamada de ferramenta inválida: 1Tempo de resposta (médio)3.22sTempo de resposta (máx.)3.22sTempo de resposta (total)3.22s
Análise e extração de dados
: 7.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.82sTempo de resposta (máx.)4.82sTempo de resposta (total)4.82s
Específico do domínio
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)744msTempo de resposta (máx.)744msTempo de resposta (total)744ms
Inteligência geral
: 4.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.59sTempo de resposta (máx.)1.59sTempo de resposta (total)1.59s
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)888msTempo de resposta (máx.)888msTempo de resposta (total)888ms
Chamada de ferramentas
: 2.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)7.05sTempo de resposta (máx.)7.05sTempo de resposta (total)7.05s
Total de testes: 18Testes errados: 13Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 37.0%Testes instáveis: 4…Tokens de saída: 3,720Tokens de raciocínio: 0Tempo de resposta: médio 4.33s · total 78.02s · máx. 32.57s
Truques anti-IA
: 4.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)2.11sTempo de resposta (máx.)3.94sTempo de resposta (total)8.46s
Programação
: 5.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)9.79sTempo de resposta (máx.)9.79sTempo de resposta (total)9.79s
Combinado
: 2.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Chamada de ferramenta inválida: 1Tempo de resposta (médio)32.57sTempo de resposta (máx.)32.57sTempo de resposta (total)32.57s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.08sTempo de resposta (máx.)1.62sTempo de resposta (total)2.15s
Específico do domínio
: 2.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.99sTempo de resposta (máx.)3.99sTempo de resposta (total)5.98s
Inteligência geral
: 5.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)790msTempo de resposta (máx.)790msTempo de resposta (total)790ms
Seguimento de instruções
: 8.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.58sTempo de resposta (máx.)1.69sTempo de resposta (total)3.17s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)10.68sTempo de resposta (máx.)10.68sTempo de resposta (total)10.68s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 12Tempo de resposta (médio)13.37sTempo de resposta (máx.)42.13sTempo de resposta (total)147.05s…
Total de testes: 18Testes errados: 12Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 40.7%Testes instáveis: 3…Tokens de saída: 2,659Tokens de raciocínio: 0Tempo de resposta: médio 13.37s · total 147.05s · máx. 42.13s
Truques anti-IA
: 3.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)6.24sTempo de resposta (máx.)11.38sTempo de resposta (total)12.48s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)38.78sTempo de resposta (máx.)38.78sTempo de resposta (total)38.78s
Combinado
: 2.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)19.16sTempo de resposta (máx.)19.16sTempo de resposta (total)19.16s
Análise e extração de dados
: 7.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)42.13sTempo de resposta (máx.)42.13sTempo de resposta (total)42.13s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)4.38sTempo de resposta (máx.)4.38sTempo de resposta (total)4.38s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.00sTempo de resposta (máx.)4.00sTempo de resposta (total)4.00s
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.67sTempo de resposta (máx.)2.67sTempo de resposta (total)2.67s
Resolução de quebra-cabeças
: 3.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)4.73sTempo de resposta (máx.)7.81sTempo de resposta (total)9.45s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)13.99sTempo de resposta (máx.)13.99sTempo de resposta (total)13.99s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 10Não seguiu as instruções: 2Tempo de resposta (médio)2.94sTempo de resposta (máx.)8.21sTempo de resposta (total)52.98s…
Total de testes: 18Testes errados: 12Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 37.0%Testes instáveis: 2…Tokens de saída: 1,775Tokens de raciocínio: 0Tempo de resposta: médio 2.94s · total 52.98s · máx. 8.21s
Truques anti-IA
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)2.84sTempo de resposta (máx.)4.15sTempo de resposta (total)11.35s
Programação
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.93sTempo de resposta (máx.)3.93sTempo de resposta (total)3.93s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.89sTempo de resposta (máx.)4.89sTempo de resposta (total)4.89s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.47sTempo de resposta (máx.)2.48sTempo de resposta (total)4.95s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)1.97sTempo de resposta (máx.)2.65sTempo de resposta (total)5.92s
Inteligência geral
: 4.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.18sTempo de resposta (máx.)2.18sTempo de resposta (total)2.18s
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.13sTempo de resposta (máx.)2.53sTempo de resposta (total)4.27s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)8.21sTempo de resposta (máx.)8.21sTempo de resposta (total)8.21s
Total de testes: 18Testes errados: 12Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 35.2%Testes instáveis: 1…Tokens de saída: 3,338Tokens de raciocínio: 0Tempo de resposta: médio 11.33s · total 203.88s · máx. 35.34s
Truques anti-IA
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)12.30sTempo de resposta (máx.)16.60sTempo de resposta (total)49.20s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)11.21sTempo de resposta (máx.)11.21sTempo de resposta (total)11.21s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Chamada de ferramenta inválida: 1Tempo de resposta (médio)35.34sTempo de resposta (máx.)35.34sTempo de resposta (total)35.34s
Análise e extração de dados
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)8.48sTempo de resposta (máx.)12.71sTempo de resposta (total)16.96s
Específico do domínio
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)4.94sTempo de resposta (máx.)7.65sTempo de resposta (total)14.81s
Inteligência geral
: 4.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)11.85sTempo de resposta (máx.)11.85sTempo de resposta (total)11.85s
Seguimento de instruções
: 9.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.52sTempo de resposta (máx.)8.19sTempo de resposta (total)11.04s
Chamada de ferramentas
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Chamada de ferramenta inválida: 1Tempo de resposta (médio)18.80sTempo de resposta (máx.)18.80sTempo de resposta (total)18.80s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 11Não seguiu as instruções: 2Tempo de resposta (médio)5.07sTempo de resposta (máx.)39.47sTempo de resposta (total)91.23s…
Total de testes: 18Testes errados: 13Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 29.6%Testes instáveis: 1…Tokens de saída: 1,985Tokens de raciocínio: 0Tempo de resposta: médio 5.07s · total 91.23s · máx. 39.47s
Truques anti-IA
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)3.02sTempo de resposta (máx.)8.17sTempo de resposta (total)12.07s
Programação
: 6.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)39.47sTempo de resposta (máx.)39.47sTempo de resposta (total)39.47s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)8.91sTempo de resposta (máx.)8.91sTempo de resposta (total)8.91s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.26sTempo de resposta (máx.)4.66sTempo de resposta (total)6.52s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)877msTempo de resposta (máx.)894msTempo de resposta (total)2.63s
Inteligência geral
: 4.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.86sTempo de resposta (máx.)2.86sTempo de resposta (total)2.86s
Resolução de quebra-cabeças
: 5.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)3.30sTempo de resposta (máx.)4.81sTempo de resposta (total)9.91s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.67sTempo de resposta (máx.)6.67sTempo de resposta (total)6.67s