Total de testes: 18Testes errados: 13Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 33.3%Testes instáveis: 2…Tokens de saída: 4,444Tokens de raciocínio: 0Tempo de resposta: médio 29.39s · total 529.10s · máx. 111.96s
Truques anti-IA
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)20.18sTempo de resposta (máx.)26.54sTempo de resposta (total)80.73s
Programação
: 6.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)24.04sTempo de resposta (máx.)24.04sTempo de resposta (total)24.04s
Combinado
: 4.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Chamada de ferramenta inválida: 1Tempo de resposta (médio)111.96sTempo de resposta (máx.)111.96sTempo de resposta (total)111.96s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)23.79sTempo de resposta (máx.)23.85sTempo de resposta (total)47.57s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)19.73sTempo de resposta (máx.)27.66sTempo de resposta (total)59.18s
Inteligência geral
: 4.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)23.74sTempo de resposta (máx.)23.74sTempo de resposta (total)23.74s
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 1Tempo de resposta (médio)17.54sTempo de resposta (máx.)18.51sTempo de resposta (total)35.08s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)77.93sTempo de resposta (máx.)77.93sTempo de resposta (total)77.93s
Total de testes: 18Testes errados: 14Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 29.6%Testes instáveis: 2…Tokens de saída: 1,591Tokens de raciocínio: 0Tempo de resposta: médio 1.19s · total 21.37s · máx. 6.48s
Truques anti-IA
: 4.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)597msTempo de resposta (máx.)866msTempo de resposta (total)2.39s
Programação
: 5.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.14sTempo de resposta (máx.)1.14sTempo de resposta (total)1.14s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Chamada de ferramenta inválida: 1Tempo de resposta (médio)6.48sTempo de resposta (máx.)6.48sTempo de resposta (total)6.48s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)601msTempo de resposta (máx.)634msTempo de resposta (total)1.20s
Específico do domínio
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)611msTempo de resposta (máx.)616msTempo de resposta (total)1.83s
Inteligência geral
: 5.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)541msTempo de resposta (máx.)541msTempo de resposta (total)541ms
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.79sTempo de resposta (máx.)4.79sTempo de resposta (total)4.79s
Total de testes: 18Testes errados: 14Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 51.9%Testes instáveis: 10…Tokens de saída: 4,984Tokens de raciocínio: 62,787Tempo de resposta: médio 31.08s · total 528.37s · máx. 117.04s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)91.27sTempo de resposta (máx.)91.27sTempo de resposta (total)91.27s
Combinado
: 4.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Chamada de ferramenta inválida: 1Tempo de resposta (médio)41.03sTempo de resposta (máx.)41.03sTempo de resposta (total)41.03s
Análise e extração de dados
: 6.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)21.95sTempo de resposta (máx.)24.88sTempo de resposta (total)43.89s
Inteligência geral
: 3.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)38.70sTempo de resposta (máx.)38.70sTempo de resposta (total)38.70s
Chamada de ferramentas
: 4.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)12.05sTempo de resposta (máx.)12.05sTempo de resposta (total)12.05s
Total de testes: 18Testes errados: 13Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 29.6%Testes instáveis: 1…Tokens de saída: 2,596Tokens de raciocínio: 0Tempo de resposta: médio 1.27s · total 22.82s · máx. 3.70s
Truques anti-IA
: 6.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)1.19sTempo de resposta (máx.)2.04sTempo de resposta (total)4.75s
Programação
: 5.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.30sTempo de resposta (máx.)1.30sTempo de resposta (total)1.30s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.70sTempo de resposta (máx.)3.70sTempo de resposta (total)3.70s
Análise e extração de dados
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)979msTempo de resposta (máx.)1.02sTempo de resposta (total)1.96s
Específico do domínio
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)925msTempo de resposta (máx.)1.16sTempo de resposta (total)2.77s
Inteligência geral
: 4.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)920msTempo de resposta (máx.)920msTempo de resposta (total)920ms
Seguimento de instruções
: 9.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)987msTempo de resposta (máx.)1.13sTempo de resposta (total)1.97s
Chamada de ferramentas
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Chamada de ferramenta inválida: 1Tempo de resposta (médio)2.83sTempo de resposta (máx.)2.83sTempo de resposta (total)2.83s
Total de testes: 18Testes errados: 13Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 29.6%Testes instáveis: 1…Tokens de saída: 1,967Tokens de raciocínio: 0Tempo de resposta: médio 1.11s · total 20.02s · máx. 6.04s
Truques anti-IA
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)501msTempo de resposta (máx.)839msTempo de resposta (total)2.01s
Programação
: 3.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.22sTempo de resposta (máx.)1.22sTempo de resposta (total)1.22s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Chamada de ferramenta inválida: 1Tempo de resposta (médio)6.04sTempo de resposta (máx.)6.04sTempo de resposta (total)6.04s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)522msTempo de resposta (máx.)537msTempo de resposta (total)1.04s
Inteligência geral
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)659msTempo de resposta (máx.)659msTempo de resposta (total)659ms
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.63sTempo de resposta (máx.)4.63sTempo de resposta (total)4.63s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 11Não seguiu as instruções: 2Tempo de resposta (médio)665msTempo de resposta (máx.)1.72sTempo de resposta (total)11.97s…
Total de testes: 18Testes errados: 13Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 31.5%Testes instáveis: 1…Tokens de saída: 2,207Tokens de raciocínio: 0Tempo de resposta: médio 665ms · total 11.97s · máx. 1.72s
Truques anti-IA
: 3.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)395msTempo de resposta (máx.)769msTempo de resposta (total)1.58s
Programação
: 4.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.28sTempo de resposta (máx.)1.28sTempo de resposta (total)1.28s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.72sTempo de resposta (máx.)1.72sTempo de resposta (total)1.72s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)822msTempo de resposta (máx.)1.08sTempo de resposta (total)1.64s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)367msTempo de resposta (máx.)388msTempo de resposta (total)1.10s
Inteligência geral
: 4.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)729msTempo de resposta (máx.)729msTempo de resposta (total)729ms
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)380msTempo de resposta (máx.)380msTempo de resposta (total)759ms
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.40sTempo de resposta (máx.)1.40sTempo de resposta (total)1.40s
Total de testes: 18Testes errados: 14Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 38.9%Testes instáveis: 5…Tokens de saída: 44,652Tokens de raciocínio: 0Tempo de resposta: médio 11.96s · total 179.34s · máx. 68.97s
Programação
: 4.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)9.57sTempo de resposta (máx.)9.57sTempo de resposta (total)9.57s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
Análise e extração de dados
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)7.12sTempo de resposta (máx.)7.12sTempo de resposta (total)7.12s
Específico do domínio
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)34.98sTempo de resposta (máx.)68.97sTempo de resposta (total)104.94s
Inteligência geral
: 4.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.83sTempo de resposta (máx.)2.83sTempo de resposta (total)2.83s
Seguimento de instruções
: 8.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)5.10sTempo de resposta (máx.)5.85sTempo de resposta (total)10.21s
Chamada de ferramentas
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
Total de testes: 18Testes errados: 13Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 31.5%Testes instáveis: 1…Tokens de saída: 2,573Tokens de raciocínio: 0Tempo de resposta: médio 1.23s · total 22.16s · máx. 3.81s
Programação
: 6.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.39sTempo de resposta (máx.)1.39sTempo de resposta (total)1.39s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.81sTempo de resposta (máx.)3.81sTempo de resposta (total)3.81s
Análise e extração de dados
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.04sTempo de resposta (máx.)1.05sTempo de resposta (total)2.08s
Específico do domínio
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)927msTempo de resposta (máx.)1.17sTempo de resposta (total)2.78s
Inteligência geral
: 4.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)854msTempo de resposta (máx.)854msTempo de resposta (total)854ms
Seguimento de instruções
: 9.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.03sTempo de resposta (máx.)1.17sTempo de resposta (total)2.07s
Chamada de ferramentas
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Chamada de ferramenta inválida: 1Tempo de resposta (médio)2.79sTempo de resposta (máx.)2.79sTempo de resposta (total)2.79s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 10Não seguiu as instruções: 3Tempo de resposta (médio)1.17sTempo de resposta (máx.)2.52sTempo de resposta (total)21.01s…
Total de testes: 18Testes errados: 13Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 35.2%Testes instáveis: 3…Tokens de saída: 2,418Tokens de raciocínio: 0Tempo de resposta: médio 1.17s · total 21.01s · máx. 2.52s
Truques anti-IA
: 3.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)929msTempo de resposta (máx.)1.55sTempo de resposta (total)3.72s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.19sTempo de resposta (máx.)1.19sTempo de resposta (total)1.19s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.52sTempo de resposta (máx.)2.52sTempo de resposta (total)2.52s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.30sTempo de resposta (máx.)1.58sTempo de resposta (total)2.61s
Específico do domínio
: 3.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)937msTempo de resposta (máx.)1.25sTempo de resposta (total)2.81s
Inteligência geral
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.82sTempo de resposta (máx.)1.82sTempo de resposta (total)1.82s
Seguimento de instruções
: 6.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)728msTempo de resposta (máx.)731msTempo de resposta (total)1.46s
Chamada de ferramentas
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.32sTempo de resposta (máx.)2.32sTempo de resposta (total)2.32s
Total de testes: 18Testes errados: 14Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 25.9%Testes instáveis: 1…Tokens de saída: 3,617Tokens de raciocínio: 0Tempo de resposta: médio 10.18s · total 122.13s · máx. 45.14s
Programação
: 7.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.14sTempo de resposta (máx.)3.14sTempo de resposta (total)3.14s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)45.14sTempo de resposta (máx.)45.14sTempo de resposta (total)45.14s
Análise e extração de dados
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.32sTempo de resposta (máx.)1.32sTempo de resposta (total)1.32s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)962msTempo de resposta (máx.)962msTempo de resposta (total)962ms
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.34sTempo de resposta (máx.)1.34sTempo de resposta (total)1.34s
Seguimento de instruções
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)7.71sTempo de resposta (máx.)14.65sTempo de resposta (total)15.42s
Resolução de quebra-cabeças
: 3.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)22.86sTempo de resposta (máx.)42.58sTempo de resposta (total)45.73s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.47sTempo de resposta (máx.)2.47sTempo de resposta (total)2.47s
Total de testes: 18Testes errados: 13Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 27.8%Testes instáveis: 0…Tokens de saída: 2,177Tokens de raciocínio: 0Tempo de resposta: médio 1.05s · total 18.94s · máx. 2.43s
Truques anti-IA
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)842msTempo de resposta (máx.)1.47sTempo de resposta (total)3.37s
Programação
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.95sTempo de resposta (máx.)1.95sTempo de resposta (total)1.95s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.36sTempo de resposta (máx.)2.36sTempo de resposta (total)2.36s
Análise e extração de dados
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 1Tempo de resposta (médio)1.01sTempo de resposta (máx.)1.18sTempo de resposta (total)2.03s
Específico do domínio
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)756msTempo de resposta (máx.)877msTempo de resposta (total)2.27s
Inteligência geral
: 4.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)841msTempo de resposta (máx.)841msTempo de resposta (total)841ms
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)751msTempo de resposta (máx.)821msTempo de resposta (total)1.50s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.43sTempo de resposta (máx.)2.43sTempo de resposta (total)2.43s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 10Não seguiu as instruções: 4Tempo de resposta (médio)8.54sTempo de resposta (máx.)24.97sTempo de resposta (total)153.69s…
Total de testes: 18Testes errados: 14Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 35.2%Testes instáveis: 4…Tokens de saída: 4,760Tokens de raciocínio: 0Tempo de resposta: médio 8.54s · total 153.69s · máx. 24.97s
Truques anti-IA
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)7.43sTempo de resposta (máx.)16.69sTempo de resposta (total)29.72s
Programação
: 3.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.99sTempo de resposta (máx.)2.99sTempo de resposta (total)2.99s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)19.98sTempo de resposta (máx.)19.98sTempo de resposta (total)19.98s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.92sTempo de resposta (máx.)13.23sTempo de resposta (total)15.84s
Específico do domínio
: 3.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)6.23sTempo de resposta (máx.)14.38sTempo de resposta (total)18.70s
Inteligência geral
: 4.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)24.97sTempo de resposta (máx.)24.97sTempo de resposta (total)24.97s
Chamada de ferramentas
: 4.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)16.00sTempo de resposta (máx.)16.00sTempo de resposta (total)16.00s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 13Não seguiu as instruções: 1Tempo de resposta (médio)2.00sTempo de resposta (máx.)7.58sTempo de resposta (total)21.99s…
Total de testes: 18Testes errados: 14Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 22.2%Testes instáveis: 0…Tokens de saída: 1,947Tokens de raciocínio: 0Tempo de resposta: médio 2.00s · total 21.99s · máx. 7.58s
Truques anti-IA
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.34sTempo de resposta (máx.)1.83sTempo de resposta (total)2.67s
Programação
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.55sTempo de resposta (máx.)2.55sTempo de resposta (total)2.55s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)7.58sTempo de resposta (máx.)7.58sTempo de resposta (total)7.58s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.27sTempo de resposta (máx.)1.27sTempo de resposta (total)1.27s
Específico do domínio
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)637msTempo de resposta (máx.)637msTempo de resposta (total)637ms
Inteligência geral
: 4.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)909msTempo de resposta (máx.)909msTempo de resposta (total)909ms
Resolução de quebra-cabeças
: 3.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.30sTempo de resposta (máx.)1.54sTempo de resposta (total)2.60s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.51sTempo de resposta (máx.)2.51sTempo de resposta (total)2.51s
Total de testes: 18Testes errados: 14Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 24.1%Testes instáveis: 1…Tokens de saída: 3,951Tokens de raciocínio: 0Tempo de resposta: médio 1.47s · total 26.43s · máx. 5.91s
Truques anti-IA
: 3.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)1.71sTempo de resposta (máx.)3.79sTempo de resposta (total)6.84s
Programação
: 5.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)5.69sTempo de resposta (máx.)5.69sTempo de resposta (total)5.69s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Chamada de ferramenta inválida: 1Tempo de resposta (médio)5.91sTempo de resposta (máx.)5.91sTempo de resposta (total)5.91s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)847msTempo de resposta (máx.)1.09sTempo de resposta (total)1.69s
Específico do domínio
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)464msTempo de resposta (máx.)622msTempo de resposta (total)1.39s
Inteligência geral
: 4.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)552msTempo de resposta (máx.)552msTempo de resposta (total)552ms
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)514msTempo de resposta (máx.)582msTempo de resposta (total)1.03s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.27sTempo de resposta (máx.)1.27sTempo de resposta (total)1.27s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 13Não seguiu as instruções: 1Tempo de resposta (médio)613msTempo de resposta (máx.)1.27sTempo de resposta (total)11.04s…
Total de testes: 18Testes errados: 14Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 27.8%Testes instáveis: 2…Tokens de saída: 1,625Tokens de raciocínio: 0Tempo de resposta: médio 613ms · total 11.04s · máx. 1.27s
Truques anti-IA
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)483msTempo de resposta (máx.)716msTempo de resposta (total)1.93s
Programação
: 3.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)969msTempo de resposta (máx.)969msTempo de resposta (total)969ms
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)606msTempo de resposta (máx.)606msTempo de resposta (total)606ms
Análise e extração de dados
: 7.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)667msTempo de resposta (máx.)819msTempo de resposta (total)1.33s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)534msTempo de resposta (máx.)733msTempo de resposta (total)1.60s
Inteligência geral
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)628msTempo de resposta (máx.)628msTempo de resposta (total)628ms
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)551msTempo de resposta (máx.)622msTempo de resposta (total)1.10s
Resolução de quebra-cabeças
: 3.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)533msTempo de resposta (máx.)637msTempo de resposta (total)1.60s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.27sTempo de resposta (máx.)1.27sTempo de resposta (total)1.27s
Total de testes: 18Testes errados: 15Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 27.8%Testes instáveis: 3…Tokens de saída: 3,241Tokens de raciocínio: 0Tempo de resposta: médio 10.75s · total 129.01s · máx. 81.80s
Programação
: 4.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Tempo de resposta (médio)1.69sTempo de resposta (máx.)1.69sTempo de resposta (total)1.69s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.28sTempo de resposta (máx.)4.28sTempo de resposta (total)4.28s
Análise e extração de dados
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)81.80sTempo de resposta (máx.)81.80sTempo de resposta (total)81.80s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)638msTempo de resposta (máx.)638msTempo de resposta (total)638ms
Inteligência geral
: 6.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.39sTempo de resposta (máx.)1.39sTempo de resposta (total)1.39s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.64sTempo de resposta (máx.)2.64sTempo de resposta (total)2.64s
Total de testes: 18Testes errados: 14Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 27.8%Testes instáveis: 2…Tokens de saída: 2,639Tokens de raciocínio: 0Tempo de resposta: médio 13.56s · total 230.55s · máx. 35.84s
Programação
: 2.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.56sTempo de resposta (máx.)4.56sTempo de resposta (total)4.56s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)35.84sTempo de resposta (máx.)35.84sTempo de resposta (total)35.84s
Análise e extração de dados
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)2.85sTempo de resposta (máx.)2.85sTempo de resposta (total)2.85s
Específico do domínio
: 3.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Erro de API: 1Tempo de resposta (médio)17.61sTempo de resposta (máx.)25.68sTempo de resposta (total)52.82s
Inteligência geral
: 4.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)16.07sTempo de resposta (máx.)16.07sTempo de resposta (total)16.07s
Seguimento de instruções
: 6.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 1Tempo de resposta (médio)12.98sTempo de resposta (máx.)23.51sTempo de resposta (total)25.95s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)33.76sTempo de resposta (máx.)33.76sTempo de resposta (total)33.76s
Total de testes: 18Testes errados: 14Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 38.9%Testes instáveis: 8…Tokens de saída: 39,688Tokens de raciocínio: 72,401Tempo de resposta: médio 32.33s · total 355.65s · máx. 174.55s
Programação
: 3.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Tempo de resposta (médio)21.26sTempo de resposta (máx.)21.26sTempo de resposta (total)21.26s
Combinado
: 2.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Chamada de ferramenta inválida: 1Tempo de resposta (médio)65.57sTempo de resposta (máx.)65.57sTempo de resposta (total)65.57s
Análise e extração de dados
: 6.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem resposta: 1Tempo de resposta (médio)1.51sTempo de resposta (máx.)1.51sTempo de resposta (total)1.51s
Específico do domínio
: 3.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Sem resposta: 1Tempo de resposta (médio)174.55sTempo de resposta (máx.)174.55sTempo de resposta (total)174.55s
Inteligência geral
: 3.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)18.14sTempo de resposta (máx.)18.14sTempo de resposta (total)18.14s
Seguimento de instruções
: 6.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.97sTempo de resposta (máx.)2.97sTempo de resposta (total)2.97s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)15.95sTempo de resposta (máx.)15.95sTempo de resposta (total)15.95s
Total de testes: 18Testes errados: 15Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 27.8%Testes instáveis: 5…Tokens de saída: 68,522Tokens de raciocínio: 0Tempo de resposta: médio 2.79s · total 39.08s · máx. 19.68s
Truques anti-IA
: 3.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)1.19sTempo de resposta (máx.)2.73sTempo de resposta (total)4.76s
Programação
: 6.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.79sTempo de resposta (máx.)2.79sTempo de resposta (total)2.79s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.87sTempo de resposta (máx.)2.87sTempo de resposta (total)2.87s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)564msTempo de resposta (máx.)564msTempo de resposta (total)564ms
Inteligência geral
: 4.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.67sTempo de resposta (máx.)1.67sTempo de resposta (total)1.67s
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)857msTempo de resposta (máx.)955msTempo de resposta (total)1.71s
Resolução de quebra-cabeças
: 3.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.38sTempo de resposta (máx.)1.74sTempo de resposta (total)2.75s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.28sTempo de resposta (máx.)2.28sTempo de resposta (total)2.28s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 13Não seguiu as instruções: 2Tempo de resposta (médio)1.76sTempo de resposta (máx.)5.51sTempo de resposta (total)19.35s…
Total de testes: 18Testes errados: 15Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 24.1%Testes instáveis: 3…Tokens de saída: 1,721Tokens de raciocínio: 0Tempo de resposta: médio 1.76s · total 19.35s · máx. 5.51s
Programação
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.79sTempo de resposta (máx.)1.79sTempo de resposta (total)1.79s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.33sTempo de resposta (máx.)3.33sTempo de resposta (total)3.33s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)943msTempo de resposta (máx.)943msTempo de resposta (total)943ms
Específico do domínio
: 5.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)1.06sTempo de resposta (máx.)1.06sTempo de resposta (total)1.06s
Inteligência geral
: 4.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.08sTempo de resposta (máx.)1.08sTempo de resposta (total)1.08s
Seguimento de instruções
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)923msTempo de resposta (máx.)923msTempo de resposta (total)923ms
Resolução de quebra-cabeças
: 3.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.28sTempo de resposta (máx.)1.36sTempo de resposta (total)2.56s
Chamada de ferramentas
: 2.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)5.51sTempo de resposta (máx.)5.51sTempo de resposta (total)5.51s
Total de testes: 18Testes errados: 15Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 16.7%Testes instáveis: 0…Tokens de saída: 2,434Tokens de raciocínio: 0Tempo de resposta: médio 8.79s · total 158.19s · máx. 25.72s
Truques anti-IA
: 3.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)6.55sTempo de resposta (máx.)9.41sTempo de resposta (total)26.19s
Programação
: 5.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)10.57sTempo de resposta (máx.)10.57sTempo de resposta (total)10.57s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)23.53sTempo de resposta (máx.)23.53sTempo de resposta (total)23.53s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.37sTempo de resposta (máx.)1.37sTempo de resposta (total)2.73s
Específico do domínio
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.04sTempo de resposta (máx.)1.08sTempo de resposta (total)3.11s
Inteligência geral
: 5.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)20.34sTempo de resposta (máx.)20.34sTempo de resposta (total)20.34s
Seguimento de instruções
: 6.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)5.36sTempo de resposta (máx.)9.81sTempo de resposta (total)10.73s
Chamada de ferramentas
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Chamada de ferramenta inválida: 1Tempo de resposta (médio)25.72sTempo de resposta (máx.)25.72sTempo de resposta (total)25.72s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 13Não seguiu as instruções: 3Tempo de resposta (médio)1.40sTempo de resposta (máx.)3.84sTempo de resposta (total)25.14s…
Total de testes: 18Testes errados: 16Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 31.5%Testes instáveis: 7…Tokens de saída: 2,762Tokens de raciocínio: 0Tempo de resposta: médio 1.40s · total 25.14s · máx. 3.84s
Truques anti-IA
: 3.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)1.18sTempo de resposta (máx.)1.81sTempo de resposta (total)4.70s
Programação
: 7.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.43sTempo de resposta (máx.)1.43sTempo de resposta (total)1.43s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.84sTempo de resposta (máx.)3.84sTempo de resposta (total)3.84s
Análise e extração de dados
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.11sTempo de resposta (máx.)1.25sTempo de resposta (total)2.23s
Específico do domínio
: 2.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)926msTempo de resposta (máx.)959msTempo de resposta (total)2.78s
Inteligência geral
: 3.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.31sTempo de resposta (máx.)1.31sTempo de resposta (total)1.31s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.40sTempo de resposta (máx.)3.40sTempo de resposta (total)3.40s
Total de testes: 18Testes errados: 15Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 33.3%Testes instáveis: 6…Tokens de saída: 24,291Tokens de raciocínio: 172,597Tempo de resposta: médio 73.64s · total 1104.60s · máx. 226.38s
Truques anti-IA
: 5.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 2Resposta incorreta: 1Tempo de resposta (médio)34.44sTempo de resposta (máx.)57.86sTempo de resposta (total)103.31s
Programação
: 2.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)135.61sTempo de resposta (máx.)135.61sTempo de resposta (total)135.61s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
Específico do domínio
: 3.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 3Tempo de resposta (médio)137.75sTempo de resposta (máx.)202.61sTempo de resposta (total)413.24s
Inteligência geral
: 2.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Tempo de resposta (médio)226.38sTempo de resposta (máx.)226.38sTempo de resposta (total)226.38s
Seguimento de instruções
: 6.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Tempo de resposta (médio)17.15sTempo de resposta (máx.)28.54sTempo de resposta (total)34.29s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.31sTempo de resposta (máx.)4.31sTempo de resposta (total)4.31s
Total de testes: 16Testes errados: 15Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 14.6%Testes instáveis: 2…Tokens de saída: 1,185Tokens de raciocínio: 0Tempo de resposta: médio 811ms · total 11.35s · máx. 2.88s
Truques anti-IA
: 3.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)471msTempo de resposta (máx.)872msTempo de resposta (total)1.41s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
Análise e extração de dados
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)714msTempo de resposta (máx.)987msTempo de resposta (total)1.43s
Inteligência geral
: 4.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)395msTempo de resposta (máx.)395msTempo de resposta (total)395ms
Seguimento de instruções
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)1.09sTempo de resposta (máx.)1.90sTempo de resposta (total)2.18s
Chamada de ferramentas
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms…
Total de testes: 1Testes errados: 1Confiabilidade: N/DA telemetria de confiabilidade está indisponível ou incompleta para este modelo.Taxa de acerto por tentativa: 0.0%Testes instáveis: 0…Tokens de saída: 0Tokens de raciocínio: 0Tempo de resposta: médio 0ms · total 0ms · máx. 0ms
Programação
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms