Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 3Resposta incorreta: 3Tempo de resposta (médio)9.81sTempo de resposta (máx.)31.36sTempo de resposta (total)176.62s…
Total de testes: 18Testes errados: 6Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 74.1%Testes instáveis: 2…Tokens de saída: 1,568Tokens de raciocínio: 91,909Tempo de resposta: médio 9.81s · total 176.62s · máx. 31.36s
Truques anti-IA
: 8.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.16sTempo de resposta (máx.)3.44sTempo de resposta (total)12.65s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)31.36sTempo de resposta (máx.)31.36sTempo de resposta (total)31.36s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)20.93sTempo de resposta (máx.)20.93sTempo de resposta (total)20.93s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.01sTempo de resposta (máx.)4.27sTempo de resposta (total)8.02s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)21.33sTempo de resposta (máx.)24.21sTempo de resposta (total)64.00s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.78sTempo de resposta (máx.)5.78sTempo de resposta (total)5.78s
Seguimento de instruções
: 8.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.97sTempo de resposta (máx.)6.05sTempo de resposta (total)9.94s
Resolução de quebra-cabeças
: 8.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)3.85sTempo de resposta (máx.)4.53sTempo de resposta (total)11.55s
Chamada de ferramentas
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)12.39sTempo de resposta (máx.)12.39sTempo de resposta (total)12.39s
Total de testes: 18Testes errados: 5Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 74.1%Testes instáveis: 1…Tokens de saída: 42,068Tokens de raciocínio: 26,784Tempo de resposta: médio 12.66s · total 126.62s · máx. 46.35s
Truques anti-IA
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 1Resposta incorreta: 1Tempo de resposta (médio)2.98sTempo de resposta (máx.)4.95sTempo de resposta (total)5.97s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)35.76sTempo de resposta (máx.)35.76sTempo de resposta (total)35.76s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)46.35sTempo de resposta (máx.)46.35sTempo de resposta (total)46.35s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)13.90sTempo de resposta (máx.)13.90sTempo de resposta (total)13.90s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.94sTempo de resposta (máx.)4.94sTempo de resposta (total)4.94s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.61sTempo de resposta (máx.)2.61sTempo de resposta (total)2.61s
Resolução de quebra-cabeças
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.80sTempo de resposta (máx.)5.22sTempo de resposta (total)9.60s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.48sTempo de resposta (máx.)7.48sTempo de resposta (total)7.48s
Total de testes: 18Testes errados: 6Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 79.6%Testes instáveis: 4…Tokens de saída: 7,554Tokens de raciocínio: 45,588Tempo de resposta: médio 43.49s · total 782.73s · máx. 180.92s
Truques anti-IA
: 8.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)30.72sTempo de resposta (máx.)44.23sTempo de resposta (total)122.88s
Programação
: 4.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Tempo de resposta (médio)180.92sTempo de resposta (máx.)180.92sTempo de resposta (total)180.92s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)93.11sTempo de resposta (máx.)93.11sTempo de resposta (total)93.11s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)36.09sTempo de resposta (máx.)39.12sTempo de resposta (total)72.18s
Inteligência geral
: 5.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)31.30sTempo de resposta (máx.)31.30sTempo de resposta (total)31.30s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)35.78sTempo de resposta (máx.)47.30sTempo de resposta (total)71.56s
Resolução de quebra-cabeças
: 8.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)36.87sTempo de resposta (máx.)59.22sTempo de resposta (total)110.62s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)34.81sTempo de resposta (máx.)34.81sTempo de resposta (total)34.81s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 5Não seguiu as instruções: 1Tempo de resposta (médio)6.84sTempo de resposta (máx.)38.52sTempo de resposta (total)123.17s…
Total de testes: 18Testes errados: 6Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 75.9%Testes instáveis: 3…Tokens de saída: 17,346Tokens de raciocínio: 0Tempo de resposta: médio 6.84s · total 123.17s · máx. 38.52s
Truques anti-IA
: 8.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.40sTempo de resposta (máx.)4.78sTempo de resposta (total)13.59s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)8.97sTempo de resposta (máx.)8.97sTempo de resposta (total)8.97s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.12sTempo de resposta (máx.)9.12sTempo de resposta (total)9.12s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.05sTempo de resposta (máx.)3.33sTempo de resposta (total)6.10s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)17.78sTempo de resposta (máx.)38.52sTempo de resposta (total)53.33s
Inteligência geral
: 4.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)3.20sTempo de resposta (máx.)3.20sTempo de resposta (total)3.20s
Seguimento de instruções
: 7.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)5.46sTempo de resposta (máx.)6.45sTempo de resposta (total)10.92s
Resolução de quebra-cabeças
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.42sTempo de resposta (máx.)5.04sTempo de resposta (total)13.27s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.68sTempo de resposta (máx.)4.68sTempo de resposta (total)4.68s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Não seguiu as instruções: 2Tempo de resposta (médio)1.30sTempo de resposta (máx.)3.39sTempo de resposta (total)23.42s…
Total de testes: 18Testes errados: 6Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 70.4%Testes instáveis: 1…Tokens de saída: 5,361Tokens de raciocínio: 0Tempo de resposta: médio 1.30s · total 23.42s · máx. 3.39s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.47sTempo de resposta (máx.)1.47sTempo de resposta (total)1.47s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.20sTempo de resposta (máx.)3.20sTempo de resposta (total)3.20s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.22sTempo de resposta (máx.)1.33sTempo de resposta (total)2.44s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)942msTempo de resposta (máx.)1.12sTempo de resposta (total)2.83s
Inteligência geral
: 4.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)741msTempo de resposta (máx.)741msTempo de resposta (total)741ms
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.13sTempo de resposta (máx.)1.14sTempo de resposta (total)2.27s
Resolução de quebra-cabeças
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)972msTempo de resposta (máx.)1.13sTempo de resposta (total)2.92s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.39sTempo de resposta (máx.)3.39sTempo de resposta (total)3.39s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 3Resposta incorreta: 3Tempo de resposta (médio)26.78sTempo de resposta (máx.)170.45sTempo de resposta (total)294.58s…
Total de testes: 17Testes errados: 6Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 70.6%Testes instáveis: 2…Tokens de saída: 71,904Tokens de raciocínio: 155,607Tempo de resposta: médio 26.78s · total 294.58s · máx. 170.45s
Truques anti-IA
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)13.56sTempo de resposta (máx.)32.30sTempo de resposta (total)40.68s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)29.57sTempo de resposta (máx.)29.57sTempo de resposta (total)29.57s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)15.01sTempo de resposta (máx.)15.01sTempo de resposta (total)15.01s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)170.45sTempo de resposta (máx.)170.45sTempo de resposta (total)170.45s
Inteligência geral
: 5.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)6.54sTempo de resposta (máx.)6.54sTempo de resposta (total)6.54s
Seguimento de instruções
: 8.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.98sTempo de resposta (máx.)4.98sTempo de resposta (total)4.98s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)11.91sTempo de resposta (máx.)11.91sTempo de resposta (total)11.91s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Não seguiu as instruções: 3Tempo de resposta (médio)47.47sTempo de resposta (máx.)255.28sTempo de resposta (total)854.45s…
Total de testes: 18Testes errados: 7Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 79.6%Testes instáveis: 5…Tokens de saída: 1,757Tokens de raciocínio: 55,907Tempo de resposta: médio 47.47s · total 854.45s · máx. 255.28s
Truques anti-IA
: 8.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)28.51sTempo de resposta (máx.)39.73sTempo de resposta (total)114.05s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)62.48sTempo de resposta (máx.)62.48sTempo de resposta (total)62.48s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)76.57sTempo de resposta (máx.)76.57sTempo de resposta (total)76.57s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)28.03sTempo de resposta (máx.)30.49sTempo de resposta (total)56.07s
Específico do domínio
: 4.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)112.69sTempo de resposta (máx.)255.28sTempo de resposta (total)338.07s
Inteligência geral
: 6.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)25.15sTempo de resposta (máx.)25.15sTempo de resposta (total)25.15s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)15.36sTempo de resposta (máx.)19.53sTempo de resposta (total)30.73s
Resolução de quebra-cabeças
: 6.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 2Tempo de resposta (médio)25.53sTempo de resposta (máx.)32.37sTempo de resposta (total)76.60s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)74.73sTempo de resposta (máx.)74.73sTempo de resposta (total)74.73s
Total de testes: 18Testes errados: 7Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 77.8%Testes instáveis: 6…Tokens de saída: 2,351Tokens de raciocínio: 58,941Tempo de resposta: médio 14.96s · total 269.32s · máx. 67.08s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)13.78sTempo de resposta (máx.)13.78sTempo de resposta (total)13.78s
Combinado
: 6.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Chamada de ferramenta inválida: 1Tempo de resposta (médio)15.06sTempo de resposta (máx.)15.06sTempo de resposta (total)15.06s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.60sTempo de resposta (máx.)9.92sTempo de resposta (total)19.19s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)38.15sTempo de resposta (máx.)67.08sTempo de resposta (total)114.45s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)11.09sTempo de resposta (máx.)11.09sTempo de resposta (total)11.09s
Seguimento de instruções
: 9.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.74sTempo de resposta (máx.)5.23sTempo de resposta (total)7.47s
Resolução de quebra-cabeças
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)10.91sTempo de resposta (máx.)18.97sTempo de resposta (total)32.74s
Chamada de ferramentas
: 7.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Chamada de ferramenta inválida: 1Tempo de resposta (médio)12.53sTempo de resposta (máx.)12.53sTempo de resposta (total)12.53s
Total de testes: 18Testes errados: 7Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 81.5%Testes instáveis: 6…Tokens de saída: 2,073Tokens de raciocínio: 191,899Tempo de resposta: médio 66.72s · total 1201.03s · máx. 234.29s
Truques anti-IA
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)59.11sTempo de resposta (máx.)168.31sTempo de resposta (total)236.44s
Programação
: 4.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Tempo de resposta (médio)45.75sTempo de resposta (máx.)45.75sTempo de resposta (total)45.75s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)17.78sTempo de resposta (máx.)17.78sTempo de resposta (total)17.78s
Análise e extração de dados
: 7.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)56.99sTempo de resposta (máx.)80.14sTempo de resposta (total)113.98s
Inteligência geral
: 6.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)40.05sTempo de resposta (máx.)40.05sTempo de resposta (total)40.05s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)63.49sTempo de resposta (máx.)111.61sTempo de resposta (total)126.98s
Resolução de quebra-cabeças
: 6.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 2Tempo de resposta (médio)56.74sTempo de resposta (máx.)115.01sTempo de resposta (total)170.23s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)10.33sTempo de resposta (máx.)10.33sTempo de resposta (total)10.33s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo esgotado: 2Erro de API: 1Tempo de resposta (médio)24.13sTempo de resposta (máx.)118.52sTempo de resposta (total)410.25s…
Total de testes: 18Testes errados: 6Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 75.9%Testes instáveis: 3…Tokens de saída: 8,005Tokens de raciocínio: 49,090Tempo de resposta: médio 24.13s · total 410.25s · máx. 118.52s
Truques anti-IA
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)8.31sTempo de resposta (máx.)14.20sTempo de resposta (total)33.24s
Programação
: 4.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Tempo de resposta (médio)118.52sTempo de resposta (máx.)118.52sTempo de resposta (total)118.52s
Combinado
: 9.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)43.11sTempo de resposta (máx.)43.11sTempo de resposta (total)43.11s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.33sTempo de resposta (máx.)9.40sTempo de resposta (total)18.66s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)20.95sTempo de resposta (máx.)20.95sTempo de resposta (total)20.95s
Seguimento de instruções
: 6.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)7.47sTempo de resposta (máx.)10.16sTempo de resposta (total)14.94s
Resolução de quebra-cabeças
: 8.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)23.85sTempo de resposta (máx.)33.09sTempo de resposta (total)71.54s
Chamada de ferramentas
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
Total de testes: 18Testes errados: 6Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 74.1%Testes instáveis: 3…Tokens de saída: 2,840Tokens de raciocínio: 116,242Tempo de resposta: médio 13.71s · total 246.73s · máx. 86.93s
Truques anti-IA
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.98sTempo de resposta (máx.)3.76sTempo de resposta (total)7.92s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)31.48sTempo de resposta (máx.)31.48sTempo de resposta (total)31.48s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)16.86sTempo de resposta (máx.)16.86sTempo de resposta (total)16.86s
Inteligência geral
: 3.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.55sTempo de resposta (máx.)1.55sTempo de resposta (total)1.55s
Seguimento de instruções
: 9.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.80sTempo de resposta (máx.)1.81sTempo de resposta (total)3.60s
Resolução de quebra-cabeças
: 8.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem resposta: 1Tempo de resposta (médio)20.60sTempo de resposta (máx.)57.93sTempo de resposta (total)61.79s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.29sTempo de resposta (máx.)7.29sTempo de resposta (total)7.29s
Total de testes: 18Testes errados: 7Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 74.1%Testes instáveis: 4…Tokens de saída: 80,759Tokens de raciocínio: 179,814Tempo de resposta: médio 45.20s · total 768.37s · máx. 215.85s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)106.96sTempo de resposta (máx.)106.96sTempo de resposta (total)106.96s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)40.96sTempo de resposta (máx.)40.96sTempo de resposta (total)40.96s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)20.38sTempo de resposta (máx.)22.88sTempo de resposta (total)40.76s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 2Tempo de resposta (médio)202.38sTempo de resposta (máx.)215.85sTempo de resposta (total)404.76s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)17.83sTempo de resposta (máx.)17.83sTempo de resposta (total)17.83s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)12.53sTempo de resposta (máx.)19.15sTempo de resposta (total)25.06s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)8.92sTempo de resposta (máx.)8.92sTempo de resposta (total)8.92s
Total de testes: 18Testes errados: 7Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 61.1%Testes instáveis: 0…Tokens de saída: 928Tokens de raciocínio: 72,661Tempo de resposta: médio 16.76s · total 301.61s · máx. 158.78s
Truques anti-IA
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.11sTempo de resposta (máx.)3.43sTempo de resposta (total)8.43s
Programação
: 4.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)68.55sTempo de resposta (máx.)68.55sTempo de resposta (total)68.55s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)19.29sTempo de resposta (máx.)19.29sTempo de resposta (total)19.29s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.29sTempo de resposta (máx.)2.62sTempo de resposta (total)4.58s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.86sTempo de resposta (máx.)2.86sTempo de resposta (total)2.86s
Seguimento de instruções
: 8.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.92sTempo de resposta (máx.)7.14sTempo de resposta (total)9.83s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)11.07sTempo de resposta (máx.)11.07sTempo de resposta (total)11.07s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 5Não seguiu as instruções: 2Tempo de resposta (médio)5.88sTempo de resposta (máx.)18.33sTempo de resposta (total)105.90s…
Total de testes: 18Testes errados: 7Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 68.5%Testes instáveis: 3…Tokens de saída: 20,784Tokens de raciocínio: 0Tempo de resposta: médio 5.88s · total 105.90s · máx. 18.33s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.32sTempo de resposta (máx.)9.32sTempo de resposta (total)9.32s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)11.96sTempo de resposta (máx.)11.96sTempo de resposta (total)11.96s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.21sTempo de resposta (máx.)2.52sTempo de resposta (total)4.42s
Específico do domínio
: 3.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)13.01sTempo de resposta (máx.)18.33sTempo de resposta (total)39.04s
Inteligência geral
: 4.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.99sTempo de resposta (máx.)1.99sTempo de resposta (total)1.99s
Seguimento de instruções
: 8.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.29sTempo de resposta (máx.)4.18sTempo de resposta (total)6.59s
Resolução de quebra-cabeças
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.93sTempo de resposta (máx.)3.05sTempo de resposta (total)8.78s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)8.36sTempo de resposta (máx.)8.36sTempo de resposta (total)8.36s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 4Resposta incorreta: 2Tempo de resposta (médio)21.08sTempo de resposta (máx.)83.40sTempo de resposta (total)231.84s…
Total de testes: 18Testes errados: 6Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 70.4%Testes instáveis: 2…Tokens de saída: 29,829Tokens de raciocínio: 18,938Tempo de resposta: médio 21.08s · total 231.84s · máx. 83.40s
Truques anti-IA
: 6.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 2Tempo de resposta (médio)7.45sTempo de resposta (máx.)11.88sTempo de resposta (total)14.90s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)23.11sTempo de resposta (máx.)23.11sTempo de resposta (total)23.11s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)76.66sTempo de resposta (máx.)76.66sTempo de resposta (total)76.66s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.37sTempo de resposta (máx.)7.37sTempo de resposta (total)7.37s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.04sTempo de resposta (máx.)5.04sTempo de resposta (total)5.04s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.43sTempo de resposta (máx.)2.43sTempo de resposta (total)2.43s
Resolução de quebra-cabeças
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.60sTempo de resposta (máx.)4.66sTempo de resposta (total)9.20s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.73sTempo de resposta (máx.)9.73sTempo de resposta (total)9.73s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Não seguiu as instruções: 3Tempo de resposta (médio)11.21sTempo de resposta (máx.)94.06sTempo de resposta (total)201.80s…
Total de testes: 18Testes errados: 7Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 68.5%Testes instáveis: 2…Tokens de saída: 2,946Tokens de raciocínio: 58,132Tempo de resposta: médio 11.21s · total 201.80s · máx. 94.06s
Truques anti-IA
: 8.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.52sTempo de resposta (máx.)7.74sTempo de resposta (total)18.10s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)13.41sTempo de resposta (máx.)13.41sTempo de resposta (total)13.41s
Combinado
: 9.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)24.13sTempo de resposta (máx.)24.13sTempo de resposta (total)24.13s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.54sTempo de resposta (máx.)3.33sTempo de resposta (total)5.08s
Específico do domínio
: 5.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)38.18sTempo de resposta (máx.)94.06sTempo de resposta (total)114.53s
Inteligência geral
: 4.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.15sTempo de resposta (máx.)4.15sTempo de resposta (total)4.15s
Seguimento de instruções
: 9.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.88sTempo de resposta (máx.)2.61sTempo de resposta (total)3.75s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.71sTempo de resposta (máx.)7.71sTempo de resposta (total)7.71s
Total de testes: 18Testes errados: 7Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 66.7%Testes instáveis: 2…Tokens de saída: 2,419Tokens de raciocínio: 79,238Tempo de resposta: médio 69.70s · total 1045.47s · máx. 262.83s
Truques anti-IA
: 6.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Resposta incorreta: 1Tempo de resposta (médio)74.75sTempo de resposta (máx.)182.10sTempo de resposta (total)298.98s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)197.31sTempo de resposta (máx.)197.31sTempo de resposta (total)197.31s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)262.83sTempo de resposta (máx.)262.83sTempo de resposta (total)262.83s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)24.27sTempo de resposta (máx.)27.52sTempo de resposta (total)48.54s
Específico do domínio
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 3Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
Inteligência geral
: 5.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)36.65sTempo de resposta (máx.)36.65sTempo de resposta (total)36.65s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)17.47sTempo de resposta (máx.)19.46sTempo de resposta (total)34.93s
Resolução de quebra-cabeças
: 8.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)25.85sTempo de resposta (máx.)32.95sTempo de resposta (total)77.55s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)88.68sTempo de resposta (máx.)88.68sTempo de resposta (total)88.68s
Total de testes: 18Testes errados: 7Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 72.2%Testes instáveis: 4…Tokens de saída: 2,705Tokens de raciocínio: 18,977Tempo de resposta: médio 14.04s · total 154.41s · máx. 77.80s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)15.12sTempo de resposta (máx.)15.12sTempo de resposta (total)15.12s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)14.06sTempo de resposta (máx.)14.06sTempo de resposta (total)14.06s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.15sTempo de resposta (máx.)3.15sTempo de resposta (total)3.15s
Inteligência geral
: 3.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.32sTempo de resposta (máx.)4.32sTempo de resposta (total)4.32s
Seguimento de instruções
: 9.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.12sTempo de resposta (máx.)3.12sTempo de resposta (total)3.12s
Resolução de quebra-cabeças
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)5.47sTempo de resposta (máx.)6.45sTempo de resposta (total)10.94s
Chamada de ferramentas
: 4.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem resposta: 1Tempo de resposta (médio)10.30sTempo de resposta (máx.)10.30sTempo de resposta (total)10.30s
Total de testes: 18Testes errados: 7Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 70.4%Testes instáveis: 3…Tokens de saída: 12,387Tokens de raciocínio: 115,182Tempo de resposta: médio 23.36s · total 280.34s · máx. 96.01s
Truques anti-IA
: 8.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 1Tempo de resposta (médio)15.85sTempo de resposta (máx.)20.83sTempo de resposta (total)47.55s
Programação
: 4.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Tempo de resposta (médio)13.03sTempo de resposta (máx.)13.03sTempo de resposta (total)13.03s
Combinado
: 9.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)75.68sTempo de resposta (máx.)75.68sTempo de resposta (total)75.68s
Análise e extração de dados
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
Específico do domínio
: 5.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)96.01sTempo de resposta (máx.)96.01sTempo de resposta (total)96.01s
Inteligência geral
: 4.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.20sTempo de resposta (máx.)4.20sTempo de resposta (total)4.20s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.28sTempo de resposta (máx.)7.37sTempo de resposta (total)8.55s
Resolução de quebra-cabeças
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.77sTempo de resposta (máx.)5.26sTempo de resposta (total)7.55s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)27.78sTempo de resposta (máx.)27.78sTempo de resposta (total)27.78s
Total de testes: 18Testes errados: 7Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 64.8%Testes instáveis: 1…Tokens de saída: 7,433Tokens de raciocínio: 0Tempo de resposta: médio 4.98s · total 54.83s · máx. 23.84s
Truques anti-IA
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 2Resposta incorreta: 1Tempo de resposta (médio)2.94sTempo de resposta (máx.)4.83sTempo de resposta (total)5.88s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.67sTempo de resposta (máx.)3.67sTempo de resposta (total)3.67s
Combinado
: 9.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)23.84sTempo de resposta (máx.)23.84sTempo de resposta (total)23.84s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.43sTempo de resposta (máx.)3.43sTempo de resposta (total)3.43s
Específico do domínio
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.54sTempo de resposta (máx.)3.54sTempo de resposta (total)3.54s
Inteligência geral
: 6.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.56sTempo de resposta (máx.)2.56sTempo de resposta (total)2.56s
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.96sTempo de resposta (máx.)1.96sTempo de resposta (total)1.96s
Resolução de quebra-cabeças
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 1Tempo de resposta (médio)2.92sTempo de resposta (máx.)3.33sTempo de resposta (total)5.84s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.11sTempo de resposta (máx.)4.11sTempo de resposta (total)4.11s
Total de testes: 18Testes errados: 8Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 79.6%Testes instáveis: 7…Tokens de saída: 10,137Tokens de raciocínio: 208,761Tempo de resposta: médio 44.51s · total 801.21s · máx. 106.00s
Truques anti-IA
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)21.13sTempo de resposta (máx.)34.96sTempo de resposta (total)84.53s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)79.09sTempo de resposta (máx.)79.09sTempo de resposta (total)79.09s
Combinado
: 4.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem resposta: 1Tempo de resposta (médio)75.34sTempo de resposta (máx.)75.34sTempo de resposta (total)75.34s
Análise e extração de dados
: 7.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)59.33sTempo de resposta (máx.)97.12sTempo de resposta (total)118.65s
Inteligência geral
: 2.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Tempo de resposta (médio)30.30sTempo de resposta (máx.)30.30sTempo de resposta (total)30.30s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)24.45sTempo de resposta (máx.)43.36sTempo de resposta (total)48.89s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.65sTempo de resposta (máx.)4.65sTempo de resposta (total)4.65s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 5Resposta incorreta: 4Tempo de resposta (médio)15.22sTempo de resposta (máx.)102.91sTempo de resposta (total)273.90s…
Total de testes: 18Testes errados: 9Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 70.4%Testes instáveis: 6…Tokens de saída: 2,131Tokens de raciocínio: 59,567Tempo de resposta: médio 15.22s · total 273.90s · máx. 102.91s
Truques anti-IA
: 8.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.05sTempo de resposta (máx.)6.69sTempo de resposta (total)16.20s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.76sTempo de resposta (máx.)7.76sTempo de resposta (total)7.76s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)17.81sTempo de resposta (máx.)17.81sTempo de resposta (total)17.81s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.43sTempo de resposta (máx.)3.39sTempo de resposta (total)4.87s
Específico do domínio
: 4.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)65.31sTempo de resposta (máx.)102.91sTempo de resposta (total)195.92s
Inteligência geral
: 4.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)3.72sTempo de resposta (máx.)3.72sTempo de resposta (total)3.72s
Seguimento de instruções
: 7.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.50sTempo de resposta (máx.)2.55sTempo de resposta (total)5.00s
Resolução de quebra-cabeças
: 6.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 2Tempo de resposta (médio)4.33sTempo de resposta (máx.)7.27sTempo de resposta (total)13.00s
Chamada de ferramentas
: 4.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)9.62sTempo de resposta (máx.)9.62sTempo de resposta (total)9.62s
Total de testes: 18Testes errados: 9Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 61.1%Testes instáveis: 3…Tokens de saída: 6,379Tokens de raciocínio: 53,482Tempo de resposta: médio 23.98s · total 431.56s · máx. 88.15s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)23.18sTempo de resposta (máx.)23.18sTempo de resposta (total)23.18s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)88.15sTempo de resposta (máx.)88.15sTempo de resposta (total)88.15s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)12.58sTempo de resposta (máx.)13.87sTempo de resposta (total)25.16s
Inteligência geral
: 4.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)13.50sTempo de resposta (máx.)13.50sTempo de resposta (total)13.50s
Seguimento de instruções
: 8.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)15.66sTempo de resposta (máx.)21.80sTempo de resposta (total)31.32s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)18.64sTempo de resposta (máx.)18.64sTempo de resposta (total)18.64s
Total de testes: 18Testes errados: 9Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 72.2%Testes instáveis: 7…Tokens de saída: 42,176Tokens de raciocínio: 84,870Tempo de resposta: médio 72.43s · total 796.70s · máx. 150.77s
Truques anti-IA
: 7.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem resposta: 1Resposta incorreta: 1Tempo de resposta (médio)51.38sTempo de resposta (máx.)85.28sTempo de resposta (total)102.75s
Programação
: 4.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Tempo de resposta (médio)150.77sTempo de resposta (máx.)150.77sTempo de resposta (total)150.77s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)71.37sTempo de resposta (máx.)71.37sTempo de resposta (total)71.37s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)49.78sTempo de resposta (máx.)49.78sTempo de resposta (total)49.78s
Inteligência geral
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)69.73sTempo de resposta (máx.)69.73sTempo de resposta (total)69.73s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)92.47sTempo de resposta (máx.)92.47sTempo de resposta (total)92.47s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)31.74sTempo de resposta (máx.)31.74sTempo de resposta (total)31.74s
Total de testes: 18Testes errados: 9Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 66.7%Testes instáveis: 5…Tokens de saída: 1,744Tokens de raciocínio: 109,882Tempo de resposta: médio 10.33s · total 185.87s · máx. 29.87s
Truques anti-IA
: 8.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.36sTempo de resposta (máx.)4.08sTempo de resposta (total)13.42s
Programação
: 4.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)24.33sTempo de resposta (máx.)24.33sTempo de resposta (total)24.33s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)17.40sTempo de resposta (máx.)17.40sTempo de resposta (total)17.40s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.17sTempo de resposta (máx.)5.02sTempo de resposta (total)8.34s
Inteligência geral
: 5.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)7.09sTempo de resposta (máx.)7.09sTempo de resposta (total)7.09s
Seguimento de instruções
: 7.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)4.42sTempo de resposta (máx.)4.46sTempo de resposta (total)8.84s
Resolução de quebra-cabeças
: 6.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 2Tempo de resposta (médio)3.89sTempo de resposta (máx.)4.90sTempo de resposta (total)11.67s
Chamada de ferramentas
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)13.68sTempo de resposta (máx.)13.68sTempo de resposta (total)13.68s
Total de testes: 18Testes errados: 8Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 55.6%Testes instáveis: 0…Tokens de saída: 1,359Tokens de raciocínio: 0Tempo de resposta: médio 4.02s · total 64.33s · máx. 26.13s
Truques anti-IA
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)1.85sTempo de resposta (máx.)4.45sTempo de resposta (total)7.40s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)26.13sTempo de resposta (máx.)26.13sTempo de resposta (total)26.13s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.25sTempo de resposta (máx.)3.02sTempo de resposta (total)4.51s
Específico do domínio
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.22sTempo de resposta (máx.)4.68sTempo de resposta (total)9.67s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.09sTempo de resposta (máx.)2.09sTempo de resposta (total)2.09s
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.84sTempo de resposta (máx.)4.45sTempo de resposta (total)5.68s
Chamada de ferramentas
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 9Tempo de resposta (médio)2.60sTempo de resposta (máx.)6.65sTempo de resposta (total)31.23s…
Total de testes: 18Testes errados: 9Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 53.7%Testes instáveis: 2…Tokens de saída: 2,461Tokens de raciocínio: 0Tempo de resposta: médio 2.60s · total 31.23s · máx. 6.65s
Truques anti-IA
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.91sTempo de resposta (máx.)2.74sTempo de resposta (total)3.82s
Programação
: 6.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.63sTempo de resposta (máx.)3.63sTempo de resposta (total)3.63s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)6.65sTempo de resposta (máx.)6.65sTempo de resposta (total)6.65s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.89sTempo de resposta (máx.)1.89sTempo de resposta (total)1.89s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)1.17sTempo de resposta (máx.)1.44sTempo de resposta (total)2.33s
Inteligência geral
: 4.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.26sTempo de resposta (máx.)2.26sTempo de resposta (total)2.26s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.67sTempo de resposta (máx.)1.67sTempo de resposta (total)1.67s
Resolução de quebra-cabeças
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.82sTempo de resposta (máx.)3.52sTempo de resposta (total)5.65s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.33sTempo de resposta (máx.)3.33sTempo de resposta (total)3.33s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 8Não seguiu as instruções: 1Tempo de resposta (médio)1.83sTempo de resposta (máx.)5.56sTempo de resposta (total)32.86s…
Total de testes: 18Testes errados: 9Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 61.1%Testes instáveis: 4…Tokens de saída: 1,910Tokens de raciocínio: 0Tempo de resposta: médio 1.83s · total 32.86s · máx. 5.56s
Truques anti-IA
: 6.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)1.31sTempo de resposta (máx.)2.08sTempo de resposta (total)5.25s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.05sTempo de resposta (máx.)2.05sTempo de resposta (total)2.05s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)5.56sTempo de resposta (máx.)5.56sTempo de resposta (total)5.56s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.18sTempo de resposta (máx.)1.24sTempo de resposta (total)2.37s
Específico do domínio
: 2.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.31sTempo de resposta (máx.)1.39sTempo de resposta (total)3.92s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.41sTempo de resposta (máx.)3.41sTempo de resposta (total)3.41s
Seguimento de instruções
: 6.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.15sTempo de resposta (máx.)1.19sTempo de resposta (total)2.31s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.90sTempo de resposta (máx.)3.90sTempo de resposta (total)3.90s
Total de testes: 18Testes errados: 10Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 64.8%Testes instáveis: 6…Tokens de saída: 4,724Tokens de raciocínio: 17,921Tempo de resposta: médio 10.33s · total 175.60s · máx. 30.53s
Truques anti-IA
: 7.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)4.75sTempo de resposta (máx.)7.62sTempo de resposta (total)19.00s
Programação
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
Combinado
: 4.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Tempo de resposta (médio)30.53sTempo de resposta (máx.)30.53sTempo de resposta (total)30.53s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)23.16sTempo de resposta (máx.)26.55sTempo de resposta (total)46.33s
Inteligência geral
: 7.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)6.44sTempo de resposta (máx.)6.44sTempo de resposta (total)6.44s
Seguimento de instruções
: 9.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.18sTempo de resposta (máx.)4.46sTempo de resposta (total)8.36s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)17.33sTempo de resposta (máx.)17.33sTempo de resposta (total)17.33s
Total de testes: 18Testes errados: 9Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 55.6%Testes instáveis: 3…Tokens de saída: 11,947Tokens de raciocínio: 29,768Tempo de resposta: médio 19.06s · total 305.04s · máx. 87.80s
Truques anti-IA
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)10.08sTempo de resposta (máx.)22.30sTempo de resposta (total)40.30s
Programação
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)87.80sTempo de resposta (máx.)87.80sTempo de resposta (total)87.80s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)18.16sTempo de resposta (máx.)20.65sTempo de resposta (total)36.33s
Inteligência geral
: 3.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)27.86sTempo de resposta (máx.)27.86sTempo de resposta (total)27.86s
Seguimento de instruções
: 7.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)7.72sTempo de resposta (máx.)11.23sTempo de resposta (total)15.45s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)39.75sTempo de resposta (máx.)39.75sTempo de resposta (total)39.75s