Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)11.39sTempo de resposta (máx.)50.16sTempo de resposta (total)113.86s…
Total de testes: 17Testes errados: 0Taxa de acerto por tentativa: 100.0%Testes instáveis: 0…Tokens de saída: 1,640Tokens de raciocínio: 48,270Tempo de resposta: médio 11.39s · total 113.86s · máx. 50.16s
Truques anti-IA
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.13sTempo de resposta (máx.)5.61sTempo de resposta (total)8.26s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)50.16sTempo de resposta (máx.)50.16sTempo de resposta (total)50.16s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.72sTempo de resposta (máx.)4.72sTempo de resposta (total)4.72s
Específico do domínio
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)21.12sTempo de resposta (máx.)21.12sTempo de resposta (total)21.12s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.09sTempo de resposta (máx.)4.09sTempo de resposta (total)4.09s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.10sTempo de resposta (máx.)6.10sTempo de resposta (total)6.10s
Resolução de quebra-cabeças
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.43sTempo de resposta (máx.)4.68sTempo de resposta (total)8.85s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)10.55sTempo de resposta (máx.)10.55sTempo de resposta (total)10.55s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)15.56sTempo de resposta (máx.)40.61sTempo de resposta (total)155.64s…
Total de testes: 17Testes errados: 1Taxa de acerto por tentativa: 94.1%Testes instáveis: 0…Tokens de saída: 1,527Tokens de raciocínio: 36,341Tempo de resposta: médio 15.56s · total 155.64s · máx. 40.61s
Truques anti-IA
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.90sTempo de resposta (máx.)9.52sTempo de resposta (total)15.80s
Combinado
: 9.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)40.61sTempo de resposta (máx.)40.61sTempo de resposta (total)40.61s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.72sTempo de resposta (máx.)7.72sTempo de resposta (total)7.72s
Específico do domínio
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)32.73sTempo de resposta (máx.)32.73sTempo de resposta (total)32.73s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)11.77sTempo de resposta (máx.)11.77sTempo de resposta (total)11.77s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.56sTempo de resposta (máx.)9.56sTempo de resposta (total)9.56s
Resolução de quebra-cabeças
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.15sTempo de resposta (máx.)8.49sTempo de resposta (total)14.30s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)23.15sTempo de resposta (máx.)23.15sTempo de resposta (total)23.15s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)5.95sTempo de resposta (máx.)14.72sTempo de resposta (total)101.19s…
Total de testes: 17Testes errados: 3Taxa de acerto por tentativa: 84.3%Testes instáveis: 1…Tokens de saída: 1,592Tokens de raciocínio: 20,556Tempo de resposta: médio 5.95s · total 101.19s · máx. 14.72s
Truques anti-IA
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.48sTempo de resposta (máx.)4.31sTempo de resposta (total)13.94s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.27sTempo de resposta (máx.)3.27sTempo de resposta (total)3.27s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.40sTempo de resposta (máx.)14.72sTempo de resposta (total)18.80s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)8.05sTempo de resposta (máx.)14.40sTempo de resposta (total)24.15s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.68sTempo de resposta (máx.)3.68sTempo de resposta (total)3.68s
Seguimento de instruções
: 9.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.02sTempo de resposta (máx.)7.35sTempo de resposta (total)14.03s
Resolução de quebra-cabeças
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.11sTempo de resposta (máx.)10.27sTempo de resposta (total)18.32s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.99sTempo de resposta (máx.)4.99sTempo de resposta (total)4.99s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)9.06sTempo de resposta (máx.)26.24sTempo de resposta (total)90.58s…
Total de testes: 17Testes errados: 3Taxa de acerto por tentativa: 82.4%Testes instáveis: 0…Tokens de saída: 1,508Tokens de raciocínio: 10,084Tempo de resposta: médio 9.06s · total 90.58s · máx. 26.24s
Truques anti-IA
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)14.99sTempo de resposta (máx.)26.24sTempo de resposta (total)29.99s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)10.37sTempo de resposta (máx.)10.37sTempo de resposta (total)10.37s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)10.84sTempo de resposta (máx.)10.84sTempo de resposta (total)10.84s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)7.01sTempo de resposta (máx.)7.01sTempo de resposta (total)7.01s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.34sTempo de resposta (máx.)9.34sTempo de resposta (total)9.34s
Seguimento de instruções
: 9.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.26sTempo de resposta (máx.)3.26sTempo de resposta (total)3.26s
Resolução de quebra-cabeças
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.91sTempo de resposta (máx.)4.23sTempo de resposta (total)7.81s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)11.96sTempo de resposta (máx.)11.96sTempo de resposta (total)11.96s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Não seguiu as instruções: 2Tempo de resposta (médio)27.78sTempo de resposta (máx.)168.71sTempo de resposta (total)472.24s…
Total de testes: 17Testes errados: 5Taxa de acerto por tentativa: 82.4%Testes instáveis: 3…Tokens de saída: 2,821Tokens de raciocínio: 44,723Tempo de resposta: médio 27.78s · total 472.24s · máx. 168.71s
Truques anti-IA
: 8.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)17.99sTempo de resposta (máx.)48.33sTempo de resposta (total)71.98s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)37.67sTempo de resposta (máx.)37.67sTempo de resposta (total)37.67s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.07sTempo de resposta (máx.)12.19sTempo de resposta (total)18.14s
Específico do domínio
: 5.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)88.74sTempo de resposta (máx.)168.71sTempo de resposta (total)266.21s
Inteligência geral
: 6.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)18.25sTempo de resposta (máx.)18.25sTempo de resposta (total)18.25s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.26sTempo de resposta (máx.)9.02sTempo de resposta (total)14.52s
Resolução de quebra-cabeças
: 9.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)11.03sTempo de resposta (máx.)13.85sTempo de resposta (total)33.09s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)12.38sTempo de resposta (máx.)12.38sTempo de resposta (total)12.38s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Não seguiu as instruções: 1Tempo de resposta (médio)13.94sTempo de resposta (máx.)43.55sTempo de resposta (total)237.01s…
Total de testes: 17Testes errados: 4Taxa de acerto por tentativa: 76.5%Testes instáveis: 0…Tokens de saída: 1,756Tokens de raciocínio: 77,213Tempo de resposta: médio 13.94s · total 237.01s · máx. 43.55s
Truques anti-IA
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.90sTempo de resposta (máx.)19.37sTempo de resposta (total)39.60s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)34.95sTempo de resposta (máx.)34.95sTempo de resposta (total)34.95s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)14.95sTempo de resposta (máx.)15.40sTempo de resposta (total)29.90s
Específico do domínio
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)22.08sTempo de resposta (máx.)43.55sTempo de resposta (total)66.23s
Inteligência geral
: 5.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)27.05sTempo de resposta (máx.)27.05sTempo de resposta (total)27.05s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.54sTempo de resposta (máx.)11.67sTempo de resposta (total)15.07s
Resolução de quebra-cabeças
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.11sTempo de resposta (máx.)7.52sTempo de resposta (total)18.34s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.87sTempo de resposta (máx.)5.87sTempo de resposta (total)5.87s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Não seguiu as instruções: 2Tempo de resposta (médio)15.76sTempo de resposta (máx.)100.93sTempo de resposta (total)267.97s…
Total de testes: 17Testes errados: 5Taxa de acerto por tentativa: 82.4%Testes instáveis: 3…Tokens de saída: 1,788Tokens de raciocínio: 33,649Tempo de resposta: médio 15.76s · total 267.97s · máx. 100.93s
Truques anti-IA
: 8.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.16sTempo de resposta (máx.)6.68sTempo de resposta (total)16.63s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)19.56sTempo de resposta (máx.)19.56sTempo de resposta (total)19.56s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.07sTempo de resposta (máx.)3.59sTempo de resposta (total)6.15s
Específico do domínio
: 5.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)64.31sTempo de resposta (máx.)100.93sTempo de resposta (total)192.94s
Inteligência geral
: 4.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.87sTempo de resposta (máx.)4.87sTempo de resposta (total)4.87s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.04sTempo de resposta (máx.)3.44sTempo de resposta (total)6.07s
Resolução de quebra-cabeças
: 9.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)5.12sTempo de resposta (máx.)8.73sTempo de resposta (total)15.37s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.37sTempo de resposta (máx.)6.37sTempo de resposta (total)6.37s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Não seguiu as instruções: 1Tempo de resposta (médio)68.83sTempo de resposta (máx.)280.52sTempo de resposta (total)1101.32s…
Total de testes: 16Testes errados: 4Taxa de acerto por tentativa: 77.1%Testes instáveis: 1…Tokens de saída: 1,283Tokens de raciocínio: 1,533,310Tempo de resposta: médio 68.83s · total 1101.32s · máx. 280.52s
Truques anti-IA
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)43.87sTempo de resposta (máx.)121.88sTempo de resposta (total)131.62s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)280.52sTempo de resposta (máx.)280.52sTempo de resposta (total)280.52s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.16sTempo de resposta (máx.)8.54sTempo de resposta (total)14.31s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)127.58sTempo de resposta (máx.)133.93sTempo de resposta (total)382.74s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.25sTempo de resposta (máx.)5.25sTempo de resposta (total)5.25s
Seguimento de instruções
: 7.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)70.07sTempo de resposta (máx.)136.53sTempo de resposta (total)140.14s
Resolução de quebra-cabeças
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)46.33sTempo de resposta (máx.)134.22sTempo de resposta (total)139.00s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.73sTempo de resposta (máx.)7.73sTempo de resposta (total)7.73s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 2Resposta incorreta: 2Tempo de resposta (médio)39.13sTempo de resposta (máx.)81.20sTempo de resposta (total)391.29s…
Total de testes: 17Testes errados: 4Taxa de acerto por tentativa: 82.4%Testes instáveis: 2…Tokens de saída: 1,754Tokens de raciocínio: 92,522Tempo de resposta: médio 39.13s · total 391.29s · máx. 81.20s
Truques anti-IA
: 8.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)45.78sTempo de resposta (máx.)81.20sTempo de resposta (total)91.57s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)46.85sTempo de resposta (máx.)46.85sTempo de resposta (total)46.85s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)46.91sTempo de resposta (máx.)46.91sTempo de resposta (total)46.91s
Inteligência geral
: 4.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Tempo de resposta (médio)79.86sTempo de resposta (máx.)79.86sTempo de resposta (total)79.86s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)31.93sTempo de resposta (máx.)31.93sTempo de resposta (total)31.93s
Resolução de quebra-cabeças
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)34.57sTempo de resposta (máx.)49.12sTempo de resposta (total)69.13s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.54sTempo de resposta (máx.)7.54sTempo de resposta (total)7.54s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo esgotado: 1Tempo de resposta (médio)29.05sTempo de resposta (máx.)119.29sTempo de resposta (total)493.86s…
Total de testes: 17Testes errados: 4Taxa de acerto por tentativa: 80.4%Testes instáveis: 2…Tokens de saída: 17,313Tokens de raciocínio: 151,974Tempo de resposta: médio 29.05s · total 493.86s · máx. 119.29s
Truques anti-IA
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.75sTempo de resposta (máx.)18.03sTempo de resposta (total)39.01s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)107.79sTempo de resposta (máx.)107.79sTempo de resposta (total)107.79s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)23.41sTempo de resposta (máx.)29.79sTempo de resposta (total)46.83s
Específico do domínio
: 2.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)63.40sTempo de resposta (máx.)119.29sTempo de resposta (total)190.20s
Inteligência geral
: 3.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Tempo de resposta (médio)34.11sTempo de resposta (máx.)34.11sTempo de resposta (total)34.11s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.88sTempo de resposta (máx.)15.44sTempo de resposta (total)19.76s
Resolução de quebra-cabeças
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)17.18sTempo de resposta (máx.)31.99sTempo de resposta (total)51.55s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.60sTempo de resposta (máx.)4.60sTempo de resposta (total)4.60s
Total de testes: 17Testes errados: 5Taxa de acerto por tentativa: 80.4%Testes instáveis: 3…Tokens de saída: 2,125Tokens de raciocínio: 223,335Tempo de resposta: médio 52.01s · total 884.10s · máx. 163.96s
Truques anti-IA
: 8.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 1Tempo de resposta (médio)19.75sTempo de resposta (máx.)49.95sTempo de resposta (total)79.01s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)163.96sTempo de resposta (máx.)163.96sTempo de resposta (total)163.96s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)30.26sTempo de resposta (máx.)32.03sTempo de resposta (total)60.52s
Inteligência geral
: 6.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)101.41sTempo de resposta (máx.)101.41sTempo de resposta (total)101.41s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)19.66sTempo de resposta (máx.)32.25sTempo de resposta (total)39.32s
Resolução de quebra-cabeças
: 8.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)64.61sTempo de resposta (máx.)123.57sTempo de resposta (total)193.84s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.45sTempo de resposta (máx.)7.45sTempo de resposta (total)7.45s
Total de testes: 17Testes errados: 5Taxa de acerto por tentativa: 84.3%Testes instáveis: 4…Tokens de saída: 19,833Tokens de raciocínio: 38,523Tempo de resposta: médio 17.15s · total 154.32s · máx. 28.96s
Truques anti-IA
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)23.66sTempo de resposta (máx.)25.06sTempo de resposta (total)47.32s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)28.96sTempo de resposta (máx.)28.96sTempo de resposta (total)28.96s
Análise e extração de dados
: 7.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem resposta: 1Tempo de resposta (médio)8.90sTempo de resposta (máx.)8.90sTempo de resposta (total)8.90s
Inteligência geral
: 6.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)14.69sTempo de resposta (máx.)14.69sTempo de resposta (total)14.69s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.25sTempo de resposta (máx.)7.25sTempo de resposta (total)7.25s
Resolução de quebra-cabeças
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)15.64sTempo de resposta (máx.)16.34sTempo de resposta (total)31.27s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)15.93sTempo de resposta (máx.)15.93sTempo de resposta (total)15.93s
Total de testes: 17Testes errados: 5Taxa de acerto por tentativa: 80.4%Testes instáveis: 3…Tokens de saída: 9,994Tokens de raciocínio: 41,719Tempo de resposta: médio 38.49s · total 654.41s · máx. 93.11s
Truques anti-IA
: 8.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)30.72sTempo de resposta (máx.)44.23sTempo de resposta (total)122.88s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)93.11sTempo de resposta (máx.)93.11sTempo de resposta (total)93.11s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)36.09sTempo de resposta (máx.)39.12sTempo de resposta (total)72.18s
Inteligência geral
: 5.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)31.30sTempo de resposta (máx.)31.30sTempo de resposta (total)31.30s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)35.78sTempo de resposta (máx.)47.30sTempo de resposta (total)71.56s
Resolução de quebra-cabeças
: 8.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)36.87sTempo de resposta (máx.)59.22sTempo de resposta (total)110.62s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)34.81sTempo de resposta (máx.)34.81sTempo de resposta (total)34.81s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Não seguiu as instruções: 1Tempo de resposta (médio)11.88sTempo de resposta (máx.)95.48sTempo de resposta (total)201.89s…
Total de testes: 17Testes errados: 5Taxa de acerto por tentativa: 74.5%Testes instáveis: 1…Tokens de saída: 1,376Tokens de raciocínio: 111,923Tempo de resposta: médio 11.88s · total 201.89s · máx. 95.48s
Truques anti-IA
: 8.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)6.30sTempo de resposta (máx.)15.56sTempo de resposta (total)25.21s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)28.44sTempo de resposta (máx.)28.44sTempo de resposta (total)28.44s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.06sTempo de resposta (máx.)5.06sTempo de resposta (total)8.11s
Específico do domínio
: 5.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)37.34sTempo de resposta (máx.)95.48sTempo de resposta (total)112.01s
Inteligência geral
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.86sTempo de resposta (máx.)4.86sTempo de resposta (total)4.86s
Seguimento de instruções
: 9.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.62sTempo de resposta (máx.)2.78sTempo de resposta (total)5.24s
Resolução de quebra-cabeças
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.94sTempo de resposta (máx.)6.33sTempo de resposta (total)11.83s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.20sTempo de resposta (máx.)6.20sTempo de resposta (total)6.20s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Não seguiu as instruções: 1Tempo de resposta (médio)3.70sTempo de resposta (máx.)14.93sTempo de resposta (total)62.97s…
Total de testes: 17Testes errados: 5Taxa de acerto por tentativa: 70.6%Testes instáveis: 0…Tokens de saída: 1,737Tokens de raciocínio: 26,346Tempo de resposta: médio 3.70s · total 62.97s · máx. 14.93s
Truques anti-IA
: 9.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.33sTempo de resposta (máx.)3.89sTempo de resposta (total)9.30s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)14.93sTempo de resposta (máx.)14.93sTempo de resposta (total)14.93s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.29sTempo de resposta (máx.)2.31sTempo de resposta (total)4.59s
Específico do domínio
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)4.21sTempo de resposta (máx.)5.86sTempo de resposta (total)12.62s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.16sTempo de resposta (máx.)3.16sTempo de resposta (total)3.16s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.91sTempo de resposta (máx.)1.93sTempo de resposta (total)3.82s
Resolução de quebra-cabeças
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.58sTempo de resposta (máx.)4.41sTempo de resposta (total)10.75s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.80sTempo de resposta (máx.)3.80sTempo de resposta (total)3.80s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Não seguiu as instruções: 2Tempo de resposta (médio)18.95sTempo de resposta (máx.)100.41sTempo de resposta (total)322.23s…
Total de testes: 17Testes errados: 5Taxa de acerto por tentativa: 78.4%Testes instáveis: 3…Tokens de saída: 1,780Tokens de raciocínio: 46,687Tempo de resposta: médio 18.95s · total 322.23s · máx. 100.41s
Truques anti-IA
: 8.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.11sTempo de resposta (máx.)6.42sTempo de resposta (total)16.42s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)20.57sTempo de resposta (máx.)20.57sTempo de resposta (total)20.57s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.32sTempo de resposta (máx.)5.40sTempo de resposta (total)10.64s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)74.27sTempo de resposta (máx.)100.41sTempo de resposta (total)222.80s
Inteligência geral
: 4.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.92sTempo de resposta (máx.)4.92sTempo de resposta (total)4.92s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.11sTempo de resposta (máx.)3.68sTempo de resposta (total)6.22s
Resolução de quebra-cabeças
: 8.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)9.13sTempo de resposta (máx.)18.14sTempo de resposta (total)27.39s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)13.28sTempo de resposta (máx.)13.28sTempo de resposta (total)13.28s
Total de testes: 17Testes errados: 6Taxa de acerto por tentativa: 76.5%Testes instáveis: 5…Tokens de saída: 11,865Tokens de raciocínio: 35,632Tempo de resposta: médio 17.98s · total 305.72s · máx. 194.23s
Truques anti-IA
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.82sTempo de resposta (máx.)7.69sTempo de resposta (total)19.26s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)13.88sTempo de resposta (máx.)13.88sTempo de resposta (total)13.88s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.19sTempo de resposta (máx.)6.42sTempo de resposta (total)12.38s
Inteligência geral
: 6.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)10.05sTempo de resposta (máx.)10.05sTempo de resposta (total)10.05s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.38sTempo de resposta (máx.)5.70sTempo de resposta (total)10.77s
Resolução de quebra-cabeças
: 7.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 2Tempo de resposta (médio)5.44sTempo de resposta (máx.)7.26sTempo de resposta (total)16.32s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.84sTempo de resposta (máx.)9.84sTempo de resposta (total)9.84s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Não seguiu as instruções: 1Tempo de resposta (médio)3.28sTempo de resposta (máx.)11.91sTempo de resposta (total)55.80s…
Total de testes: 17Testes errados: 5Taxa de acerto por tentativa: 70.6%Testes instáveis: 0…Tokens de saída: 1,617Tokens de raciocínio: 7,686Tempo de resposta: médio 3.28s · total 55.80s · máx. 11.91s
Truques anti-IA
: 8.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.12sTempo de resposta (máx.)3.18sTempo de resposta (total)8.50s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)11.91sTempo de resposta (máx.)11.91sTempo de resposta (total)11.91s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.00sTempo de resposta (máx.)3.74sTempo de resposta (total)5.99s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)2.36sTempo de resposta (máx.)3.51sTempo de resposta (total)7.07s
Inteligência geral
: 4.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.54sTempo de resposta (máx.)1.54sTempo de resposta (total)1.54s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.49sTempo de resposta (máx.)1.66sTempo de resposta (total)2.99s
Resolução de quebra-cabeças
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.76sTempo de resposta (máx.)5.08sTempo de resposta (total)8.27s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.54sTempo de resposta (máx.)9.54sTempo de resposta (total)9.54s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 5Tempo de resposta (médio)1.66sTempo de resposta (máx.)3.56sTempo de resposta (total)16.61s…
Total de testes: 17Testes errados: 5Taxa de acerto por tentativa: 76.5%Testes instáveis: 2…Tokens de saída: 1,417Tokens de raciocínio: 0Tempo de resposta: médio 1.66s · total 16.61s · máx. 3.56s
Truques anti-IA
: 8.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.25sTempo de resposta (máx.)1.59sTempo de resposta (total)2.49s
Combinado
: 4.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.56sTempo de resposta (máx.)3.56sTempo de resposta (total)3.56s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.41sTempo de resposta (máx.)1.41sTempo de resposta (total)1.41s
Específico do domínio
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)963msTempo de resposta (máx.)963msTempo de resposta (total)963ms
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.13sTempo de resposta (máx.)1.13sTempo de resposta (total)1.13s
Seguimento de instruções
: 6.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.58sTempo de resposta (máx.)1.58sTempo de resposta (total)1.58s
Resolução de quebra-cabeças
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.06sTempo de resposta (máx.)1.06sTempo de resposta (total)2.12s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.35sTempo de resposta (máx.)3.35sTempo de resposta (total)3.35s
Total de testes: 17Testes errados: 6Taxa de acerto por tentativa: 82.4%Testes instáveis: 5…Tokens de saída: 1,827Tokens de raciocínio: 179,299Tempo de resposta: médio 67.96s · total 1155.28s · máx. 234.29s
Truques anti-IA
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)59.11sTempo de resposta (máx.)168.31sTempo de resposta (total)236.44s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)17.78sTempo de resposta (máx.)17.78sTempo de resposta (total)17.78s
Análise e extração de dados
: 7.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)56.99sTempo de resposta (máx.)80.14sTempo de resposta (total)113.98s
Inteligência geral
: 6.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)40.05sTempo de resposta (máx.)40.05sTempo de resposta (total)40.05s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)63.49sTempo de resposta (máx.)111.61sTempo de resposta (total)126.98s
Resolução de quebra-cabeças
: 6.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 2Tempo de resposta (médio)56.74sTempo de resposta (máx.)115.01sTempo de resposta (total)170.23s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)10.33sTempo de resposta (máx.)10.33sTempo de resposta (total)10.33s
Total de testes: 17Testes errados: 6Taxa de acerto por tentativa: 76.5%Testes instáveis: 3…Tokens de saída: 1,875Tokens de raciocínio: 26,959Tempo de resposta: médio 9.78s · total 156.45s · máx. 64.71s
Truques anti-IA
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.06sTempo de resposta (máx.)4.70sTempo de resposta (total)12.23s
Combinado
: 4.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)64.71sTempo de resposta (máx.)64.71sTempo de resposta (total)64.71s
Análise e extração de dados
: 7.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)17.20sTempo de resposta (máx.)17.44sTempo de resposta (total)34.40s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.06sTempo de resposta (máx.)4.06sTempo de resposta (total)4.06s
Seguimento de instruções
: 9.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.36sTempo de resposta (máx.)4.35sTempo de resposta (total)6.72s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)8.19sTempo de resposta (máx.)8.19sTempo de resposta (total)8.19s
Total de testes: 17Testes errados: 5Taxa de acerto por tentativa: 72.6%Testes instáveis: 1…Tokens de saída: 35,174Tokens de raciocínio: 24,687Tempo de resposta: médio 10.09s · total 90.85s · máx. 46.35s
Truques anti-IA
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 1Resposta incorreta: 1Tempo de resposta (médio)2.98sTempo de resposta (máx.)4.95sTempo de resposta (total)5.97s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)46.35sTempo de resposta (máx.)46.35sTempo de resposta (total)46.35s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)13.90sTempo de resposta (máx.)13.90sTempo de resposta (total)13.90s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.94sTempo de resposta (máx.)4.94sTempo de resposta (total)4.94s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.61sTempo de resposta (máx.)2.61sTempo de resposta (total)2.61s
Resolução de quebra-cabeças
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.80sTempo de resposta (máx.)5.22sTempo de resposta (total)9.60s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.48sTempo de resposta (máx.)7.48sTempo de resposta (total)7.48s
Total de testes: 17Testes errados: 6Taxa de acerto por tentativa: 64.7%Testes instáveis: 0…Tokens de saída: 663Tokens de raciocínio: 39,001Tempo de resposta: médio 13.71s · total 233.06s · máx. 158.78s
Truques anti-IA
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.11sTempo de resposta (máx.)3.43sTempo de resposta (total)8.43s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)19.29sTempo de resposta (máx.)19.29sTempo de resposta (total)19.29s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.29sTempo de resposta (máx.)2.62sTempo de resposta (total)4.58s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.86sTempo de resposta (máx.)2.86sTempo de resposta (total)2.86s
Seguimento de instruções
: 8.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.92sTempo de resposta (máx.)7.14sTempo de resposta (total)9.83s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)11.07sTempo de resposta (máx.)11.07sTempo de resposta (total)11.07s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 3Resposta incorreta: 3Tempo de resposta (médio)8.54sTempo de resposta (máx.)24.21sTempo de resposta (total)145.26s…
Total de testes: 17Testes errados: 6Taxa de acerto por tentativa: 72.6%Testes instáveis: 2…Tokens de saída: 1,487Tokens de raciocínio: 87,922Tempo de resposta: médio 8.54s · total 145.26s · máx. 24.21s
Truques anti-IA
: 8.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.16sTempo de resposta (máx.)3.44sTempo de resposta (total)12.65s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)20.93sTempo de resposta (máx.)20.93sTempo de resposta (total)20.93s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.01sTempo de resposta (máx.)4.27sTempo de resposta (total)8.02s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)21.33sTempo de resposta (máx.)24.21sTempo de resposta (total)64.00s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.78sTempo de resposta (máx.)5.78sTempo de resposta (total)5.78s
Seguimento de instruções
: 8.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.97sTempo de resposta (máx.)6.05sTempo de resposta (total)9.94s
Resolução de quebra-cabeças
: 8.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)3.85sTempo de resposta (máx.)4.53sTempo de resposta (total)11.55s
Chamada de ferramentas
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)12.39sTempo de resposta (máx.)12.39sTempo de resposta (total)12.39s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 3Resposta incorreta: 3Tempo de resposta (médio)26.78sTempo de resposta (máx.)170.45sTempo de resposta (total)294.58s…
Total de testes: 17Testes errados: 6Taxa de acerto por tentativa: 70.6%Testes instáveis: 2…Tokens de saída: 71,904Tokens de raciocínio: 155,607Tempo de resposta: médio 26.78s · total 294.58s · máx. 170.45s
Truques anti-IA
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)13.56sTempo de resposta (máx.)32.30sTempo de resposta (total)40.68s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)29.57sTempo de resposta (máx.)29.57sTempo de resposta (total)29.57s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)15.01sTempo de resposta (máx.)15.01sTempo de resposta (total)15.01s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)170.45sTempo de resposta (máx.)170.45sTempo de resposta (total)170.45s
Inteligência geral
: 5.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)6.54sTempo de resposta (máx.)6.54sTempo de resposta (total)6.54s
Seguimento de instruções
: 8.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.98sTempo de resposta (máx.)4.98sTempo de resposta (total)4.98s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)11.91sTempo de resposta (máx.)11.91sTempo de resposta (total)11.91s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Não seguiu as instruções: 2Tempo de resposta (médio)1.29sTempo de resposta (máx.)3.39sTempo de resposta (total)21.95s…
Total de testes: 17Testes errados: 6Taxa de acerto por tentativa: 68.6%Testes instáveis: 1…Tokens de saída: 4,721Tokens de raciocínio: 0Tempo de resposta: médio 1.29s · total 21.95s · máx. 3.39s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.20sTempo de resposta (máx.)3.20sTempo de resposta (total)3.20s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.22sTempo de resposta (máx.)1.33sTempo de resposta (total)2.44s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)942msTempo de resposta (máx.)1.12sTempo de resposta (total)2.83s
Inteligência geral
: 4.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)741msTempo de resposta (máx.)741msTempo de resposta (total)741ms
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.13sTempo de resposta (máx.)1.14sTempo de resposta (total)2.27s
Resolução de quebra-cabeças
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)972msTempo de resposta (máx.)1.13sTempo de resposta (total)2.92s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.39sTempo de resposta (máx.)3.39sTempo de resposta (total)3.39s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 5Não seguiu as instruções: 1Tempo de resposta (médio)6.72sTempo de resposta (máx.)38.52sTempo de resposta (total)114.20s…
Total de testes: 17Testes errados: 6Taxa de acerto por tentativa: 74.5%Testes instáveis: 3…Tokens de saída: 16,001Tokens de raciocínio: 0Tempo de resposta: médio 6.72s · total 114.20s · máx. 38.52s
Truques anti-IA
: 8.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.40sTempo de resposta (máx.)4.78sTempo de resposta (total)13.59s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.12sTempo de resposta (máx.)9.12sTempo de resposta (total)9.12s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.05sTempo de resposta (máx.)3.33sTempo de resposta (total)6.10s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)17.78sTempo de resposta (máx.)38.52sTempo de resposta (total)53.33s
Inteligência geral
: 4.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)3.20sTempo de resposta (máx.)3.20sTempo de resposta (total)3.20s
Seguimento de instruções
: 7.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)5.46sTempo de resposta (máx.)6.45sTempo de resposta (total)10.92s
Resolução de quebra-cabeças
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.42sTempo de resposta (máx.)5.04sTempo de resposta (total)13.27s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.68sTempo de resposta (máx.)4.68sTempo de resposta (total)4.68s
Total de testes: 17Testes errados: 6Taxa de acerto por tentativa: 70.6%Testes instáveis: 2…Tokens de saída: 11,959Tokens de raciocínio: 111,534Tempo de resposta: médio 24.30s · total 267.31s · máx. 96.01s
Truques anti-IA
: 8.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 1Tempo de resposta (médio)15.85sTempo de resposta (máx.)20.83sTempo de resposta (total)47.55s
Combinado
: 9.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)75.68sTempo de resposta (máx.)75.68sTempo de resposta (total)75.68s
Análise e extração de dados
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
Específico do domínio
: 5.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)96.01sTempo de resposta (máx.)96.01sTempo de resposta (total)96.01s
Inteligência geral
: 4.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.20sTempo de resposta (máx.)4.20sTempo de resposta (total)4.20s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.28sTempo de resposta (máx.)7.37sTempo de resposta (total)8.55s
Resolução de quebra-cabeças
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.77sTempo de resposta (máx.)5.26sTempo de resposta (total)7.55s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)27.78sTempo de resposta (máx.)27.78sTempo de resposta (total)27.78s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 5Não seguiu as instruções: 2Tempo de resposta (médio)5.68sTempo de resposta (máx.)18.33sTempo de resposta (total)96.58s…
Total de testes: 17Testes errados: 7Taxa de acerto por tentativa: 66.7%Testes instáveis: 3…Tokens de saída: 19,348Tokens de raciocínio: 0Tempo de resposta: médio 5.68s · total 96.58s · máx. 18.33s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)11.96sTempo de resposta (máx.)11.96sTempo de resposta (total)11.96s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.21sTempo de resposta (máx.)2.52sTempo de resposta (total)4.42s
Específico do domínio
: 3.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)13.01sTempo de resposta (máx.)18.33sTempo de resposta (total)39.04s
Inteligência geral
: 4.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.99sTempo de resposta (máx.)1.99sTempo de resposta (total)1.99s
Seguimento de instruções
: 8.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.29sTempo de resposta (máx.)4.18sTempo de resposta (total)6.59s
Resolução de quebra-cabeças
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.93sTempo de resposta (máx.)3.05sTempo de resposta (total)8.78s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)8.36sTempo de resposta (máx.)8.36sTempo de resposta (total)8.36s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 4Resposta incorreta: 2Tempo de resposta (médio)20.87sTempo de resposta (máx.)83.40sTempo de resposta (total)208.73s…
Total de testes: 17Testes errados: 6Taxa de acerto por tentativa: 68.6%Testes instáveis: 2…Tokens de saída: 26,343Tokens de raciocínio: 17,434Tempo de resposta: médio 20.87s · total 208.73s · máx. 83.40s
Truques anti-IA
: 6.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 2Tempo de resposta (médio)7.45sTempo de resposta (máx.)11.88sTempo de resposta (total)14.90s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)76.66sTempo de resposta (máx.)76.66sTempo de resposta (total)76.66s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.37sTempo de resposta (máx.)7.37sTempo de resposta (total)7.37s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.04sTempo de resposta (máx.)5.04sTempo de resposta (total)5.04s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.43sTempo de resposta (máx.)2.43sTempo de resposta (total)2.43s
Resolução de quebra-cabeças
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.60sTempo de resposta (máx.)4.66sTempo de resposta (total)9.20s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.73sTempo de resposta (máx.)9.73sTempo de resposta (total)9.73s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Não seguiu as instruções: 3Tempo de resposta (médio)11.08sTempo de resposta (máx.)94.06sTempo de resposta (total)188.39s…
Total de testes: 17Testes errados: 7Taxa de acerto por tentativa: 66.7%Testes instáveis: 2…Tokens de saída: 2,474Tokens de raciocínio: 54,516Tempo de resposta: médio 11.08s · total 188.39s · máx. 94.06s
Truques anti-IA
: 8.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.52sTempo de resposta (máx.)7.74sTempo de resposta (total)18.10s
Combinado
: 9.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)24.13sTempo de resposta (máx.)24.13sTempo de resposta (total)24.13s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.54sTempo de resposta (máx.)3.33sTempo de resposta (total)5.08s
Específico do domínio
: 5.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)38.18sTempo de resposta (máx.)94.06sTempo de resposta (total)114.53s
Inteligência geral
: 4.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.15sTempo de resposta (máx.)4.15sTempo de resposta (total)4.15s
Seguimento de instruções
: 9.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.88sTempo de resposta (máx.)2.61sTempo de resposta (total)3.75s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.71sTempo de resposta (máx.)7.71sTempo de resposta (total)7.71s
Total de testes: 17Testes errados: 7Taxa de acerto por tentativa: 64.7%Testes instáveis: 2…Tokens de saída: 1,971Tokens de raciocínio: 58,624Tempo de resposta: médio 60.58s · total 848.16s · máx. 262.83s
Truques anti-IA
: 6.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Resposta incorreta: 1Tempo de resposta (médio)74.75sTempo de resposta (máx.)182.10sTempo de resposta (total)298.98s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)262.83sTempo de resposta (máx.)262.83sTempo de resposta (total)262.83s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)24.27sTempo de resposta (máx.)27.52sTempo de resposta (total)48.54s
Específico do domínio
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 3Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
Inteligência geral
: 5.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)36.65sTempo de resposta (máx.)36.65sTempo de resposta (total)36.65s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)17.47sTempo de resposta (máx.)19.46sTempo de resposta (total)34.93s
Resolução de quebra-cabeças
: 8.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)25.85sTempo de resposta (máx.)32.95sTempo de resposta (total)77.55s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)88.68sTempo de resposta (máx.)88.68sTempo de resposta (total)88.68s
Total de testes: 17Testes errados: 7Taxa de acerto por tentativa: 70.6%Testes instáveis: 4…Tokens de saída: 2,238Tokens de raciocínio: 16,811Tempo de resposta: médio 13.93s · total 139.29s · máx. 77.80s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)14.06sTempo de resposta (máx.)14.06sTempo de resposta (total)14.06s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.15sTempo de resposta (máx.)3.15sTempo de resposta (total)3.15s
Inteligência geral
: 3.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.32sTempo de resposta (máx.)4.32sTempo de resposta (total)4.32s
Seguimento de instruções
: 9.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.12sTempo de resposta (máx.)3.12sTempo de resposta (total)3.12s
Resolução de quebra-cabeças
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)5.47sTempo de resposta (máx.)6.45sTempo de resposta (total)10.94s
Chamada de ferramentas
: 4.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem resposta: 1Tempo de resposta (médio)10.30sTempo de resposta (máx.)10.30sTempo de resposta (total)10.30s
Total de testes: 17Testes errados: 8Taxa de acerto por tentativa: 78.4%Testes instáveis: 7…Tokens de saída: 5,864Tokens de raciocínio: 175,683Tempo de resposta: médio 42.48s · total 722.12s · máx. 106.00s
Truques anti-IA
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)21.13sTempo de resposta (máx.)34.96sTempo de resposta (total)84.53s
Combinado
: 4.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem resposta: 1Tempo de resposta (médio)75.34sTempo de resposta (máx.)75.34sTempo de resposta (total)75.34s
Análise e extração de dados
: 7.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)59.33sTempo de resposta (máx.)97.12sTempo de resposta (total)118.65s
Inteligência geral
: 2.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Tempo de resposta (médio)30.30sTempo de resposta (máx.)30.30sTempo de resposta (total)30.30s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)24.45sTempo de resposta (máx.)43.36sTempo de resposta (total)48.89s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.65sTempo de resposta (máx.)4.65sTempo de resposta (total)4.65s
Total de testes: 17Testes errados: 7Taxa de acerto por tentativa: 62.8%Testes instáveis: 1…Tokens de saída: 6,910Tokens de raciocínio: 0Tempo de resposta: médio 5.12s · total 51.16s · máx. 23.84s
Truques anti-IA
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 2Resposta incorreta: 1Tempo de resposta (médio)2.94sTempo de resposta (máx.)4.83sTempo de resposta (total)5.88s
Combinado
: 9.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)23.84sTempo de resposta (máx.)23.84sTempo de resposta (total)23.84s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.43sTempo de resposta (máx.)3.43sTempo de resposta (total)3.43s
Específico do domínio
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.54sTempo de resposta (máx.)3.54sTempo de resposta (total)3.54s
Inteligência geral
: 6.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.56sTempo de resposta (máx.)2.56sTempo de resposta (total)2.56s
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.96sTempo de resposta (máx.)1.96sTempo de resposta (total)1.96s
Resolução de quebra-cabeças
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 1Tempo de resposta (médio)2.92sTempo de resposta (máx.)3.33sTempo de resposta (total)5.84s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.11sTempo de resposta (máx.)4.11sTempo de resposta (total)4.11s
Total de testes: 17Testes errados: 8Taxa de acerto por tentativa: 72.6%Testes instáveis: 6…Tokens de saída: 40,907Tokens de raciocínio: 75,121Tempo de resposta: médio 64.59s · total 645.93s · máx. 137.29s
Truques anti-IA
: 7.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem resposta: 1Resposta incorreta: 1Tempo de resposta (médio)51.38sTempo de resposta (máx.)85.28sTempo de resposta (total)102.75s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)71.37sTempo de resposta (máx.)71.37sTempo de resposta (total)71.37s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)49.78sTempo de resposta (máx.)49.78sTempo de resposta (total)49.78s
Inteligência geral
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)69.73sTempo de resposta (máx.)69.73sTempo de resposta (total)69.73s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)92.47sTempo de resposta (máx.)92.47sTempo de resposta (total)92.47s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)31.74sTempo de resposta (máx.)31.74sTempo de resposta (total)31.74s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 5Resposta incorreta: 4Tempo de resposta (médio)15.66sTempo de resposta (máx.)102.91sTempo de resposta (total)266.14s…
Total de testes: 17Testes errados: 9Taxa de acerto por tentativa: 68.6%Testes instáveis: 6…Tokens de saída: 1,708Tokens de raciocínio: 58,019Tempo de resposta: médio 15.66s · total 266.14s · máx. 102.91s
Truques anti-IA
: 8.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.05sTempo de resposta (máx.)6.69sTempo de resposta (total)16.20s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)17.81sTempo de resposta (máx.)17.81sTempo de resposta (total)17.81s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.43sTempo de resposta (máx.)3.39sTempo de resposta (total)4.87s
Específico do domínio
: 4.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)65.31sTempo de resposta (máx.)102.91sTempo de resposta (total)195.92s
Inteligência geral
: 4.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)3.72sTempo de resposta (máx.)3.72sTempo de resposta (total)3.72s
Seguimento de instruções
: 7.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.50sTempo de resposta (máx.)2.55sTempo de resposta (total)5.00s
Resolução de quebra-cabeças
: 6.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 2Tempo de resposta (médio)4.33sTempo de resposta (máx.)7.27sTempo de resposta (total)13.00s
Chamada de ferramentas
: 4.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)9.62sTempo de resposta (máx.)9.62sTempo de resposta (total)9.62s
Total de testes: 17Testes errados: 9Taxa de acerto por tentativa: 68.6%Testes instáveis: 6…Tokens de saída: 4,724Tokens de raciocínio: 17,921Tempo de resposta: médio 10.33s · total 175.60s · máx. 30.53s
Truques anti-IA
: 7.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)4.75sTempo de resposta (máx.)7.62sTempo de resposta (total)19.00s
Combinado
: 4.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Tempo de resposta (médio)30.53sTempo de resposta (máx.)30.53sTempo de resposta (total)30.53s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)23.16sTempo de resposta (máx.)26.55sTempo de resposta (total)46.33s
Inteligência geral
: 7.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)6.44sTempo de resposta (máx.)6.44sTempo de resposta (total)6.44s
Seguimento de instruções
: 9.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.18sTempo de resposta (máx.)4.46sTempo de resposta (total)8.36s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)17.33sTempo de resposta (máx.)17.33sTempo de resposta (total)17.33s
Total de testes: 17Testes errados: 8Taxa de acerto por tentativa: 66.7%Testes instáveis: 5…Tokens de saída: 1,189Tokens de raciocínio: 84,595Tempo de resposta: médio 23.91s · total 239.09s · máx. 121.79s
Truques anti-IA
: 8.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.81sTempo de resposta (máx.)5.65sTempo de resposta (total)7.62s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)37.64sTempo de resposta (máx.)37.64sTempo de resposta (total)37.64s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.63sTempo de resposta (máx.)6.63sTempo de resposta (total)6.63s
Inteligência geral
: 4.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)16.25sTempo de resposta (máx.)16.25sTempo de resposta (total)16.25s
Seguimento de instruções
: 6.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)5.30sTempo de resposta (máx.)5.30sTempo de resposta (total)5.30s
Chamada de ferramentas
: 2.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem resposta: 1Tempo de resposta (médio)27.71sTempo de resposta (máx.)27.71sTempo de resposta (total)27.71s
Total de testes: 17Testes errados: 8Taxa de acerto por tentativa: 58.8%Testes instáveis: 3…Tokens de saída: 11,947Tokens de raciocínio: 29,768Tempo de resposta: médio 19.06s · total 305.04s · máx. 87.80s
Truques anti-IA
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)10.08sTempo de resposta (máx.)22.30sTempo de resposta (total)40.30s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)87.80sTempo de resposta (máx.)87.80sTempo de resposta (total)87.80s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)18.16sTempo de resposta (máx.)20.65sTempo de resposta (total)36.33s
Inteligência geral
: 3.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)27.86sTempo de resposta (máx.)27.86sTempo de resposta (total)27.86s
Seguimento de instruções
: 7.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)7.72sTempo de resposta (máx.)11.23sTempo de resposta (total)15.45s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)39.75sTempo de resposta (máx.)39.75sTempo de resposta (total)39.75s
Total de testes: 17Testes errados: 9Taxa de acerto por tentativa: 58.8%Testes instáveis: 3…Tokens de saída: 5,896Tokens de raciocínio: 49,322Tempo de resposta: médio 24.02s · total 408.39s · máx. 88.15s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)88.15sTempo de resposta (máx.)88.15sTempo de resposta (total)88.15s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)12.58sTempo de resposta (máx.)13.87sTempo de resposta (total)25.16s
Inteligência geral
: 4.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)13.50sTempo de resposta (máx.)13.50sTempo de resposta (total)13.50s
Seguimento de instruções
: 8.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)15.66sTempo de resposta (máx.)21.80sTempo de resposta (total)31.32s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)18.64sTempo de resposta (máx.)18.64sTempo de resposta (total)18.64s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 8Tempo de resposta (médio)2.51sTempo de resposta (máx.)6.65sTempo de resposta (total)27.60s…
Total de testes: 17Testes errados: 8Taxa de acerto por tentativa: 54.9%Testes instáveis: 1…Tokens de saída: 2,018Tokens de raciocínio: 0Tempo de resposta: médio 2.51s · total 27.60s · máx. 6.65s
Truques anti-IA
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.91sTempo de resposta (máx.)2.74sTempo de resposta (total)3.82s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)6.65sTempo de resposta (máx.)6.65sTempo de resposta (total)6.65s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.89sTempo de resposta (máx.)1.89sTempo de resposta (total)1.89s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)1.17sTempo de resposta (máx.)1.44sTempo de resposta (total)2.33s
Inteligência geral
: 4.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.26sTempo de resposta (máx.)2.26sTempo de resposta (total)2.26s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.67sTempo de resposta (máx.)1.67sTempo de resposta (total)1.67s
Resolução de quebra-cabeças
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.82sTempo de resposta (máx.)3.52sTempo de resposta (total)5.65s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.33sTempo de resposta (máx.)3.33sTempo de resposta (total)3.33s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 8Tempo de resposta (médio)3.77sTempo de resposta (máx.)11.07sTempo de resposta (total)37.66s…
Total de testes: 17Testes errados: 8Taxa de acerto por tentativa: 52.9%Testes instáveis: 0…Tokens de saída: 1,551Tokens de raciocínio: 0Tempo de resposta: médio 3.77s · total 37.66s · máx. 11.07s
Truques anti-IA
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)2.37sTempo de resposta (máx.)3.39sTempo de resposta (total)4.75s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.98sTempo de resposta (máx.)4.98sTempo de resposta (total)4.98s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.78sTempo de resposta (máx.)5.78sTempo de resposta (total)5.78s
Específico do domínio
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)2.24sTempo de resposta (máx.)2.24sTempo de resposta (total)2.24s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.27sTempo de resposta (máx.)3.27sTempo de resposta (total)3.27s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.48sTempo de resposta (máx.)1.48sTempo de resposta (total)1.48s
Resolução de quebra-cabeças
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.05sTempo de resposta (máx.)2.08sTempo de resposta (total)4.10s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)11.07sTempo de resposta (máx.)11.07sTempo de resposta (total)11.07s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 7Não seguiu as instruções: 2Tempo de resposta (médio)2.01sTempo de resposta (máx.)6.81sTempo de resposta (total)34.09s…
Total de testes: 17Testes errados: 9Taxa de acerto por tentativa: 47.1%Testes instáveis: 0…Tokens de saída: 469Tokens de raciocínio: 0Tempo de resposta: médio 2.01s · total 34.09s · máx. 6.81s
Truques anti-IA
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.10sTempo de resposta (máx.)2.08sTempo de resposta (total)4.39s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.47sTempo de resposta (máx.)2.47sTempo de resposta (total)2.47s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.69sTempo de resposta (máx.)2.46sTempo de resposta (total)3.38s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)1.14sTempo de resposta (máx.)1.63sTempo de resposta (total)3.41s
Inteligência geral
: 4.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.19sTempo de resposta (máx.)1.19sTempo de resposta (total)1.19s
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.18sTempo de resposta (máx.)6.81sTempo de resposta (total)8.36s
Resolução de quebra-cabeças
: 8.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.71sTempo de resposta (máx.)5.96sTempo de resposta (total)8.14s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.76sTempo de resposta (máx.)2.76sTempo de resposta (total)2.76s
Total de testes: 17Testes errados: 10Taxa de acerto por tentativa: 51.0%Testes instáveis: 3…Tokens de saída: 7,831Tokens de raciocínio: 0Tempo de resposta: médio 12.35s · total 209.94s · máx. 115.89s
Truques anti-IA
: 3.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 2Resposta incorreta: 2Tempo de resposta (médio)7.63sTempo de resposta (máx.)12.26sTempo de resposta (total)30.54s
Combinado
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Chamada de ferramenta inválida: 1Tempo de resposta (médio)115.89sTempo de resposta (máx.)115.89sTempo de resposta (total)115.89s
Análise e extração de dados
: 6.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)9.42sTempo de resposta (máx.)16.20sTempo de resposta (total)18.84s
Específico do domínio
: 3.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.61sTempo de resposta (máx.)1.77sTempo de resposta (total)4.83s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.86sTempo de resposta (máx.)2.86sTempo de resposta (total)2.86s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.52sTempo de resposta (máx.)1.99sTempo de resposta (total)3.04s
Resolução de quebra-cabeças
: 8.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)7.37sTempo de resposta (máx.)10.78sTempo de resposta (total)22.10s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)11.85sTempo de resposta (máx.)11.85sTempo de resposta (total)11.85s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 6Não seguiu as instruções: 4Tempo de resposta (médio)2.25sTempo de resposta (máx.)14.63sTempo de resposta (total)35.99s…
Total de testes: 17Testes errados: 10Taxa de acerto por tentativa: 51.0%Testes instáveis: 3…Tokens de saída: 3,723Tokens de raciocínio: 46,120Tempo de resposta: médio 2.25s · total 35.99s · máx. 14.63s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.28sTempo de resposta (máx.)3.28sTempo de resposta (total)3.28s
Análise e extração de dados
: 7.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.11sTempo de resposta (máx.)1.47sTempo de resposta (total)2.21s
Específico do domínio
: 2.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)6.48sTempo de resposta (máx.)14.63sTempo de resposta (total)19.43s
Inteligência geral
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)821msTempo de resposta (máx.)821msTempo de resposta (total)821ms
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.07sTempo de resposta (máx.)1.07sTempo de resposta (total)1.07s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.89sTempo de resposta (máx.)1.89sTempo de resposta (total)1.89s
Total de testes: 17Testes errados: 10Taxa de acerto por tentativa: 58.8%Testes instáveis: 7…Tokens de saída: 4,500Tokens de raciocínio: 143,296Tempo de resposta: médio 44.47s · total 444.74s · máx. 204.02s
Truques anti-IA
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)25.50sTempo de resposta (máx.)37.73sTempo de resposta (total)51.00s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)65.96sTempo de resposta (máx.)65.96sTempo de resposta (total)65.96s
Análise e extração de dados
: 3.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)21.42sTempo de resposta (máx.)21.42sTempo de resposta (total)21.42s
Inteligência geral
: 4.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)17.51sTempo de resposta (máx.)17.51sTempo de resposta (total)17.51s
Seguimento de instruções
: 8.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)11.90sTempo de resposta (máx.)11.90sTempo de resposta (total)11.90s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)33.30sTempo de resposta (máx.)33.30sTempo de resposta (total)33.30s
Total de testes: 17Testes errados: 11Taxa de acerto por tentativa: 54.9%Testes instáveis: 6…Tokens de saída: 298,948Tokens de raciocínio: 296,529Tempo de resposta: médio 8.64s · total 129.64s · máx. 35.28s
Truques anti-IA
: 6.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 1Resposta incorreta: 1Tempo de resposta (médio)3.46sTempo de resposta (máx.)4.38sTempo de resposta (total)13.86s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.54sTempo de resposta (máx.)7.51sTempo de resposta (total)11.08s
Inteligência geral
: 5.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)6.40sTempo de resposta (máx.)6.40sTempo de resposta (total)6.40s
Seguimento de instruções
: 8.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.63sTempo de resposta (máx.)5.46sTempo de resposta (total)9.26s
Resolução de quebra-cabeças
: 7.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 2Tempo de resposta (médio)5.01sTempo de resposta (máx.)5.49sTempo de resposta (total)15.03s
Chamada de ferramentas
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 9Não seguiu as instruções: 1Tempo de resposta (médio)3.36sTempo de resposta (máx.)13.73sTempo de resposta (total)57.15s…
Total de testes: 17Testes errados: 10Taxa de acerto por tentativa: 43.1%Testes instáveis: 1…Tokens de saída: 3,777Tokens de raciocínio: 0Tempo de resposta: médio 3.36s · total 57.15s · máx. 13.73s
Truques anti-IA
: 3.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)1.32sTempo de resposta (máx.)3.89sTempo de resposta (total)5.30s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)6.22sTempo de resposta (máx.)6.22sTempo de resposta (total)6.22s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.57sTempo de resposta (máx.)1.83sTempo de resposta (total)3.14s
Específico do domínio
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)905msTempo de resposta (máx.)1.10sTempo de resposta (total)2.71s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)803msTempo de resposta (máx.)803msTempo de resposta (total)803ms
Seguimento de instruções
: 6.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)8.81sTempo de resposta (máx.)13.73sTempo de resposta (total)17.61s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.67sTempo de resposta (máx.)3.67sTempo de resposta (total)3.67s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 6Não seguiu as instruções: 4Tempo de resposta (médio)15.05sTempo de resposta (máx.)50.92sTempo de resposta (total)150.55s…
Total de testes: 17Testes errados: 10Taxa de acerto por tentativa: 51.0%Testes instáveis: 5…Tokens de saída: 13,265Tokens de raciocínio: 34,330Tempo de resposta: médio 15.05s · total 150.55s · máx. 50.92s
Combinado
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)31.18sTempo de resposta (máx.)31.18sTempo de resposta (total)31.18s
Análise e extração de dados
: 6.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.98sTempo de resposta (máx.)1.98sTempo de resposta (total)1.98s
Específico do domínio
: 2.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)50.92sTempo de resposta (máx.)50.92sTempo de resposta (total)50.92s
Inteligência geral
: 4.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)7.90sTempo de resposta (máx.)7.90sTempo de resposta (total)7.90s
Seguimento de instruções
: 9.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.63sTempo de resposta (máx.)7.63sTempo de resposta (total)7.63s
Chamada de ferramentas
: 9.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.91sTempo de resposta (máx.)6.91sTempo de resposta (total)6.91s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 10Tempo de resposta (médio)2.40sTempo de resposta (máx.)6.70sTempo de resposta (total)40.85s…
Total de testes: 17Testes errados: 10Taxa de acerto por tentativa: 52.9%Testes instáveis: 5…Tokens de saída: 2,749Tokens de raciocínio: 0Tempo de resposta: médio 2.40s · total 40.85s · máx. 6.70s
Truques anti-IA
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)2.43sTempo de resposta (máx.)6.70sTempo de resposta (total)9.73s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)6.59sTempo de resposta (máx.)6.59sTempo de resposta (total)6.59s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.82sTempo de resposta (máx.)1.97sTempo de resposta (total)3.63s
Específico do domínio
: 3.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.33sTempo de resposta (máx.)1.53sTempo de resposta (total)4.00s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.45sTempo de resposta (máx.)3.45sTempo de resposta (total)3.45s
Seguimento de instruções
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.06sTempo de resposta (máx.)1.09sTempo de resposta (total)2.12s
Resolução de quebra-cabeças
: 5.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)2.46sTempo de resposta (máx.)4.23sTempo de resposta (total)7.37s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.94sTempo de resposta (máx.)3.94sTempo de resposta (total)3.94s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 10Não seguiu as instruções: 1Tempo de resposta (médio)888msTempo de resposta (máx.)4.39sTempo de resposta (total)15.10s…
Total de testes: 17Testes errados: 11Taxa de acerto por tentativa: 41.2%Testes instáveis: 2…Tokens de saída: 1,273Tokens de raciocínio: 0Tempo de resposta: médio 888ms · total 15.10s · máx. 4.39s
Truques anti-IA
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)582msTempo de resposta (máx.)844msTempo de resposta (total)2.33s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.39sTempo de resposta (máx.)4.39sTempo de resposta (total)4.39s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)652msTempo de resposta (máx.)660msTempo de resposta (total)1.30s
Específico do domínio
: 5.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)495msTempo de resposta (máx.)642msTempo de resposta (total)1.49s
Inteligência geral
: 5.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)615msTempo de resposta (máx.)615msTempo de resposta (total)615ms
Seguimento de instruções
: 8.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)672msTempo de resposta (máx.)785msTempo de resposta (total)1.34s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.91sTempo de resposta (máx.)1.91sTempo de resposta (total)1.91s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 9Não seguiu as instruções: 2Tempo de resposta (médio)3.89sTempo de resposta (máx.)47.43sTempo de resposta (total)66.07s…
Total de testes: 17Testes errados: 11Taxa de acerto por tentativa: 47.1%Testes instáveis: 3…Tokens de saída: 3,761Tokens de raciocínio: 0Tempo de resposta: médio 3.89s · total 66.07s · máx. 47.43s
Truques anti-IA
: 3.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)1.43sTempo de resposta (máx.)4.39sTempo de resposta (total)5.71s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)47.43sTempo de resposta (máx.)47.43sTempo de resposta (total)47.43s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.16sTempo de resposta (máx.)1.42sTempo de resposta (total)2.33s
Específico do domínio
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)485msTempo de resposta (máx.)549msTempo de resposta (total)1.45s
Inteligência geral
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.19sTempo de resposta (máx.)1.19sTempo de resposta (total)1.19s
Seguimento de instruções
: 6.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)809msTempo de resposta (máx.)983msTempo de resposta (total)1.62s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.30sTempo de resposta (máx.)2.30sTempo de resposta (total)2.30s
Total de testes: 17Testes errados: 12Taxa de acerto por tentativa: 60.8%Testes instáveis: 10…Tokens de saída: 107,044Tokens de raciocínio: 206,422Tempo de resposta: médio 39.65s · total 396.47s · máx. 237.27s
Combinado
: 4.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Chamada de ferramenta inválida: 1Tempo de resposta (médio)60.39sTempo de resposta (máx.)60.39sTempo de resposta (total)60.39s
Análise e extração de dados
: 4.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)7.48sTempo de resposta (máx.)7.48sTempo de resposta (total)7.48s
Inteligência geral
: 3.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)6.63sTempo de resposta (máx.)6.63sTempo de resposta (total)6.63s
Seguimento de instruções
: 8.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)4.64sTempo de resposta (máx.)4.64sTempo de resposta (total)4.64s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)15.35sTempo de resposta (máx.)15.35sTempo de resposta (total)15.35s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 9Não seguiu as instruções: 2Tempo de resposta (médio)4.58sTempo de resposta (máx.)15.17sTempo de resposta (total)77.92s…
Total de testes: 17Testes errados: 11Taxa de acerto por tentativa: 49.0%Testes instáveis: 4…Tokens de saída: 2,278Tokens de raciocínio: 0Tempo de resposta: médio 4.58s · total 77.92s · máx. 15.17s
Truques anti-IA
: 3.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)3.81sTempo de resposta (máx.)6.85sTempo de resposta (total)15.23s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)15.17sTempo de resposta (máx.)15.17sTempo de resposta (total)15.17s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)8.49sTempo de resposta (máx.)14.02sTempo de resposta (total)16.98s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)2.33sTempo de resposta (máx.)2.94sTempo de resposta (total)6.99s
Inteligência geral
: 6.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.71sTempo de resposta (máx.)2.71sTempo de resposta (total)2.71s
Seguimento de instruções
: 6.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.82sTempo de resposta (máx.)2.92sTempo de resposta (total)5.65s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.02sTempo de resposta (máx.)6.02sTempo de resposta (total)6.02s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 10Não seguiu as instruções: 1Tempo de resposta (médio)3.71sTempo de resposta (máx.)46.00sTempo de resposta (total)63.06s…
Total de testes: 17Testes errados: 11Taxa de acerto por tentativa: 37.3%Testes instáveis: 1…Tokens de saída: 2,682Tokens de raciocínio: 0Tempo de resposta: médio 3.71s · total 63.06s · máx. 46.00s
Truques anti-IA
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.59sTempo de resposta (máx.)3.60sTempo de resposta (total)6.38s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)46.00sTempo de resposta (máx.)46.00sTempo de resposta (total)46.00s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.01sTempo de resposta (máx.)1.06sTempo de resposta (total)2.02s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)465msTempo de resposta (máx.)492msTempo de resposta (total)1.39s
Inteligência geral
: 5.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.12sTempo de resposta (máx.)1.12sTempo de resposta (total)1.12s
Seguimento de instruções
: 4.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)585msTempo de resposta (máx.)715msTempo de resposta (total)1.17s
Resolução de quebra-cabeças
: 5.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)982msTempo de resposta (máx.)1.36sTempo de resposta (total)2.95s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.04sTempo de resposta (máx.)2.04sTempo de resposta (total)2.04s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 9Não seguiu as instruções: 2Tempo de resposta (médio)2.31sTempo de resposta (máx.)6.58sTempo de resposta (total)39.25s…
Total de testes: 17Testes errados: 11Taxa de acerto por tentativa: 45.1%Testes instáveis: 3…Tokens de saída: 1,721Tokens de raciocínio: 0Tempo de resposta: médio 2.31s · total 39.25s · máx. 6.58s
Truques anti-IA
: 3.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)1.80sTempo de resposta (máx.)2.62sTempo de resposta (total)7.19s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)6.58sTempo de resposta (máx.)6.58sTempo de resposta (total)6.58s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.39sTempo de resposta (máx.)1.42sTempo de resposta (total)2.78s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)1.78sTempo de resposta (máx.)2.49sTempo de resposta (total)5.34s
Inteligência geral
: 4.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.44sTempo de resposta (máx.)2.44sTempo de resposta (total)2.44s
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.51sTempo de resposta (máx.)2.95sTempo de resposta (total)5.02s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.39sTempo de resposta (máx.)4.39sTempo de resposta (total)4.39s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 10Não seguiu as instruções: 1Tempo de resposta (médio)1.43sTempo de resposta (máx.)2.89sTempo de resposta (total)24.27s…
Total de testes: 17Testes errados: 11Taxa de acerto por tentativa: 39.2%Testes instáveis: 2…Tokens de saída: 1,837Tokens de raciocínio: 0Tempo de resposta: médio 1.43s · total 24.27s · máx. 2.89s
Truques anti-IA
: 3.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)1.21sTempo de resposta (máx.)2.58sTempo de resposta (total)4.85s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.89sTempo de resposta (máx.)2.89sTempo de resposta (total)2.89s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.04sTempo de resposta (máx.)1.06sTempo de resposta (total)2.08s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)1.07sTempo de resposta (máx.)1.54sTempo de resposta (total)3.22s
Inteligência geral
: 4.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.78sTempo de resposta (máx.)1.78sTempo de resposta (total)1.78s
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.07sTempo de resposta (máx.)1.17sTempo de resposta (total)2.15s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.75sTempo de resposta (máx.)2.75sTempo de resposta (total)2.75s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 10Não seguiu as instruções: 2Tempo de resposta (médio)1.70sTempo de resposta (máx.)9.39sTempo de resposta (total)28.82s…
Total de testes: 17Testes errados: 12Taxa de acerto por tentativa: 35.3%Testes instáveis: 2…Tokens de saída: 3,164Tokens de raciocínio: 0Tempo de resposta: médio 1.70s · total 28.82s · máx. 9.39s
Truques anti-IA
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)788msTempo de resposta (máx.)1.34sTempo de resposta (total)3.15s
Combinado
: 2.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)9.39sTempo de resposta (máx.)9.39sTempo de resposta (total)9.39s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.43sTempo de resposta (máx.)1.45sTempo de resposta (total)2.86s
Específico do domínio
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)540msTempo de resposta (máx.)649msTempo de resposta (total)1.62s
Inteligência geral
: 5.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.51sTempo de resposta (máx.)2.51sTempo de resposta (total)2.51s
Seguimento de instruções
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)815msTempo de resposta (máx.)973msTempo de resposta (total)1.63s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.54sTempo de resposta (máx.)3.54sTempo de resposta (total)3.54s
Total de testes: 17Testes errados: 12Taxa de acerto por tentativa: 49.0%Testes instáveis: 6…Tokens de saída: 12,288Tokens de raciocínio: 28,112Tempo de resposta: médio 4.18s · total 71.03s · máx. 25.25s
Truques anti-IA
: 5.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)2.67sTempo de resposta (máx.)5.03sTempo de resposta (total)10.66s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)25.25sTempo de resposta (máx.)25.25sTempo de resposta (total)25.25s
Análise e extração de dados
: 7.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)1.23sTempo de resposta (máx.)1.96sTempo de resposta (total)2.46s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Resposta incorreta: 1Tempo de resposta (médio)6.11sTempo de resposta (máx.)13.72sTempo de resposta (total)18.34s
Inteligência geral
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.05sTempo de resposta (máx.)2.05sTempo de resposta (total)2.05s
Seguimento de instruções
: 7.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.38sTempo de resposta (máx.)1.61sTempo de resposta (total)2.75s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.50sTempo de resposta (máx.)3.50sTempo de resposta (total)3.50s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 9Não seguiu as instruções: 2Tempo de resposta (médio)2.89sTempo de resposta (máx.)8.21sTempo de resposta (total)49.05s…
Total de testes: 17Testes errados: 11Taxa de acerto por tentativa: 37.3%Testes instáveis: 1…Tokens de saída: 1,270Tokens de raciocínio: 0Tempo de resposta: médio 2.89s · total 49.05s · máx. 8.21s
Truques anti-IA
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)2.84sTempo de resposta (máx.)4.15sTempo de resposta (total)11.35s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.89sTempo de resposta (máx.)4.89sTempo de resposta (total)4.89s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.47sTempo de resposta (máx.)2.48sTempo de resposta (total)4.95s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)1.97sTempo de resposta (máx.)2.65sTempo de resposta (total)5.92s
Inteligência geral
: 4.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.18sTempo de resposta (máx.)2.18sTempo de resposta (total)2.18s
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.13sTempo de resposta (máx.)2.53sTempo de resposta (total)4.27s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)8.21sTempo de resposta (máx.)8.21sTempo de resposta (total)8.21s
Total de testes: 17Testes errados: 12Taxa de acerto por tentativa: 39.2%Testes instáveis: 3…Tokens de saída: 1,863Tokens de raciocínio: 0Tempo de resposta: médio 3.13s · total 31.33s · máx. 7.05s
Truques anti-IA
: 5.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)5.51sTempo de resposta (máx.)6.59sTempo de resposta (total)11.02s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Chamada de ferramenta inválida: 1Tempo de resposta (médio)3.22sTempo de resposta (máx.)3.22sTempo de resposta (total)3.22s
Análise e extração de dados
: 7.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.82sTempo de resposta (máx.)4.82sTempo de resposta (total)4.82s
Específico do domínio
: 7.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)744msTempo de resposta (máx.)744msTempo de resposta (total)744ms
Inteligência geral
: 4.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.59sTempo de resposta (máx.)1.59sTempo de resposta (total)1.59s
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)888msTempo de resposta (máx.)888msTempo de resposta (total)888ms
Chamada de ferramentas
: 2.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)7.05sTempo de resposta (máx.)7.05sTempo de resposta (total)7.05s
Total de testes: 17Testes errados: 13Taxa de acerto por tentativa: 31.4%Testes instáveis: 2…Tokens de saída: 1,517Tokens de raciocínio: 0Tempo de resposta: médio 1.19s · total 20.22s · máx. 6.48s
Truques anti-IA
: 4.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)597msTempo de resposta (máx.)866msTempo de resposta (total)2.39s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Chamada de ferramenta inválida: 1Tempo de resposta (médio)6.48sTempo de resposta (máx.)6.48sTempo de resposta (total)6.48s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)601msTempo de resposta (máx.)634msTempo de resposta (total)1.20s
Específico do domínio
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)611msTempo de resposta (máx.)616msTempo de resposta (total)1.83s
Inteligência geral
: 5.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)541msTempo de resposta (máx.)541msTempo de resposta (total)541ms
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.79sTempo de resposta (máx.)4.79sTempo de resposta (total)4.79s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 12Tempo de resposta (médio)10.83sTempo de resposta (máx.)42.13sTempo de resposta (total)108.27s…
Total de testes: 17Testes errados: 12Taxa de acerto por tentativa: 37.3%Testes instáveis: 3…Tokens de saída: 2,010Tokens de raciocínio: 0Tempo de resposta: médio 10.83s · total 108.27s · máx. 42.13s
Truques anti-IA
: 3.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)6.24sTempo de resposta (máx.)11.38sTempo de resposta (total)12.48s
Combinado
: 2.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)19.16sTempo de resposta (máx.)19.16sTempo de resposta (total)19.16s
Análise e extração de dados
: 7.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)42.13sTempo de resposta (máx.)42.13sTempo de resposta (total)42.13s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)4.38sTempo de resposta (máx.)4.38sTempo de resposta (total)4.38s
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.00sTempo de resposta (máx.)4.00sTempo de resposta (total)4.00s
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.67sTempo de resposta (máx.)2.67sTempo de resposta (total)2.67s
Resolução de quebra-cabeças
: 3.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)4.73sTempo de resposta (máx.)7.81sTempo de resposta (total)9.45s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)13.99sTempo de resposta (máx.)13.99sTempo de resposta (total)13.99s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 10Não seguiu as instruções: 2Tempo de resposta (médio)3.04sTempo de resposta (máx.)8.91sTempo de resposta (total)51.75s…
Total de testes: 17Testes errados: 12Taxa de acerto por tentativa: 31.4%Testes instáveis: 1…Tokens de saída: 1,843Tokens de raciocínio: 0Tempo de resposta: médio 3.04s · total 51.75s · máx. 8.91s
Truques anti-IA
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)3.02sTempo de resposta (máx.)8.17sTempo de resposta (total)12.07s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)8.91sTempo de resposta (máx.)8.91sTempo de resposta (total)8.91s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.26sTempo de resposta (máx.)4.66sTempo de resposta (total)6.52s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)877msTempo de resposta (máx.)894msTempo de resposta (total)2.63s
Inteligência geral
: 4.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.86sTempo de resposta (máx.)2.86sTempo de resposta (total)2.86s
Resolução de quebra-cabeças
: 5.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)3.30sTempo de resposta (máx.)4.81sTempo de resposta (total)9.91s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)6.67sTempo de resposta (máx.)6.67sTempo de resposta (total)6.67s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 10Não seguiu as instruções: 2Tempo de resposta (médio)629msTempo de resposta (máx.)1.72sTempo de resposta (total)10.70s…
Total de testes: 17Testes errados: 12Taxa de acerto por tentativa: 33.3%Testes instáveis: 1…Tokens de saída: 1,624Tokens de raciocínio: 0Tempo de resposta: médio 629ms · total 10.70s · máx. 1.72s
Truques anti-IA
: 3.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)395msTempo de resposta (máx.)769msTempo de resposta (total)1.58s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.72sTempo de resposta (máx.)1.72sTempo de resposta (total)1.72s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)822msTempo de resposta (máx.)1.08sTempo de resposta (total)1.64s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)367msTempo de resposta (máx.)388msTempo de resposta (total)1.10s
Inteligência geral
: 4.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)729msTempo de resposta (máx.)729msTempo de resposta (total)729ms
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)380msTempo de resposta (máx.)380msTempo de resposta (total)759ms
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.40sTempo de resposta (máx.)1.40sTempo de resposta (total)1.40s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 9Não seguiu as instruções: 4Tempo de resposta (médio)8.86sTempo de resposta (máx.)24.97sTempo de resposta (total)150.70s…
Total de testes: 17Testes errados: 13Taxa de acerto por tentativa: 35.3%Testes instáveis: 3…Tokens de saída: 4,225Tokens de raciocínio: 0Tempo de resposta: médio 8.86s · total 150.70s · máx. 24.97s
Truques anti-IA
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)7.43sTempo de resposta (máx.)16.69sTempo de resposta (total)29.72s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)19.98sTempo de resposta (máx.)19.98sTempo de resposta (total)19.98s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.92sTempo de resposta (máx.)13.23sTempo de resposta (total)15.84s
Específico do domínio
: 3.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)6.23sTempo de resposta (máx.)14.38sTempo de resposta (total)18.70s
Inteligência geral
: 4.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)24.97sTempo de resposta (máx.)24.97sTempo de resposta (total)24.97s
Chamada de ferramentas
: 4.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)16.00sTempo de resposta (máx.)16.00sTempo de resposta (total)16.00s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 12Não seguiu as instruções: 1Tempo de resposta (médio)1.94sTempo de resposta (máx.)7.58sTempo de resposta (total)19.44s…
Total de testes: 17Testes errados: 13Taxa de acerto por tentativa: 23.5%Testes instáveis: 0…Tokens de saída: 1,600Tokens de raciocínio: 0Tempo de resposta: médio 1.94s · total 19.44s · máx. 7.58s
Truques anti-IA
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.34sTempo de resposta (máx.)1.83sTempo de resposta (total)2.67s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)7.58sTempo de resposta (máx.)7.58sTempo de resposta (total)7.58s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.27sTempo de resposta (máx.)1.27sTempo de resposta (total)1.27s
Específico do domínio
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)637msTempo de resposta (máx.)637msTempo de resposta (total)637ms
Inteligência geral
: 4.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)909msTempo de resposta (máx.)909msTempo de resposta (total)909ms
Resolução de quebra-cabeças
: 3.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.30sTempo de resposta (máx.)1.54sTempo de resposta (total)2.60s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.51sTempo de resposta (máx.)2.51sTempo de resposta (total)2.51s
Total de testes: 17Testes errados: 14Taxa de acerto por tentativa: 49.0%Testes instáveis: 10…Tokens de saída: 4,517Tokens de raciocínio: 47,612Tempo de resposta: médio 27.32s · total 437.10s · máx. 117.04s
Combinado
: 4.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Chamada de ferramenta inválida: 1Tempo de resposta (médio)41.03sTempo de resposta (máx.)41.03sTempo de resposta (total)41.03s
Análise e extração de dados
: 6.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)21.95sTempo de resposta (máx.)24.88sTempo de resposta (total)43.89s
Inteligência geral
: 3.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)38.70sTempo de resposta (máx.)38.70sTempo de resposta (total)38.70s
Chamada de ferramentas
: 4.7 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)12.05sTempo de resposta (máx.)12.05sTempo de resposta (total)12.05s
Total de testes: 17Testes errados: 13Taxa de acerto por tentativa: 23.5%Testes instáveis: 0…Tokens de saída: 3,032Tokens de raciocínio: 0Tempo de resposta: médio 10.82s · total 118.99s · máx. 45.14s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)45.14sTempo de resposta (máx.)45.14sTempo de resposta (total)45.14s
Análise e extração de dados
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.32sTempo de resposta (máx.)1.32sTempo de resposta (total)1.32s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)962msTempo de resposta (máx.)962msTempo de resposta (total)962ms
Inteligência geral
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.34sTempo de resposta (máx.)1.34sTempo de resposta (total)1.34s
Seguimento de instruções
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)7.71sTempo de resposta (máx.)14.65sTempo de resposta (total)15.42s
Resolução de quebra-cabeças
: 3.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)22.86sTempo de resposta (máx.)42.58sTempo de resposta (total)45.73s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.47sTempo de resposta (máx.)2.47sTempo de resposta (total)2.47s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 12Não seguiu as instruções: 1Tempo de resposta (médio)592msTempo de resposta (máx.)1.27sTempo de resposta (total)10.07s…
Total de testes: 17Testes errados: 13Taxa de acerto por tentativa: 29.4%Testes instáveis: 2…Tokens de saída: 1,315Tokens de raciocínio: 0Tempo de resposta: médio 592ms · total 10.07s · máx. 1.27s
Truques anti-IA
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)483msTempo de resposta (máx.)716msTempo de resposta (total)1.93s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)606msTempo de resposta (máx.)606msTempo de resposta (total)606ms
Análise e extração de dados
: 7.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)667msTempo de resposta (máx.)819msTempo de resposta (total)1.33s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)534msTempo de resposta (máx.)733msTempo de resposta (total)1.60s
Inteligência geral
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)628msTempo de resposta (máx.)628msTempo de resposta (total)628ms
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)551msTempo de resposta (máx.)622msTempo de resposta (total)1.10s
Resolução de quebra-cabeças
: 3.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)533msTempo de resposta (máx.)637msTempo de resposta (total)1.60s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.27sTempo de resposta (máx.)1.27sTempo de resposta (total)1.27s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 10Não seguiu as instruções: 3Tempo de resposta (médio)1.17sTempo de resposta (máx.)2.52sTempo de resposta (total)19.82s…
Total de testes: 17Testes errados: 13Taxa de acerto por tentativa: 31.4%Testes instáveis: 3…Tokens de saída: 2,085Tokens de raciocínio: 0Tempo de resposta: médio 1.17s · total 19.82s · máx. 2.52s
Truques anti-IA
: 3.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)929msTempo de resposta (máx.)1.55sTempo de resposta (total)3.72s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.52sTempo de resposta (máx.)2.52sTempo de resposta (total)2.52s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.30sTempo de resposta (máx.)1.58sTempo de resposta (total)2.61s
Específico do domínio
: 3.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)937msTempo de resposta (máx.)1.25sTempo de resposta (total)2.81s
Inteligência geral
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.82sTempo de resposta (máx.)1.82sTempo de resposta (total)1.82s
Seguimento de instruções
: 6.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)728msTempo de resposta (máx.)731msTempo de resposta (total)1.46s
Chamada de ferramentas
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)2.32sTempo de resposta (máx.)2.32sTempo de resposta (total)2.32s
Total de testes: 17Testes errados: 13Taxa de acerto por tentativa: 23.5%Testes instáveis: 0…Tokens de saída: 2,945Tokens de raciocínio: 0Tempo de resposta: médio 1.22s · total 20.74s · máx. 5.91s
Truques anti-IA
: 3.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)1.71sTempo de resposta (máx.)3.79sTempo de resposta (total)6.84s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Chamada de ferramenta inválida: 1Tempo de resposta (médio)5.91sTempo de resposta (máx.)5.91sTempo de resposta (total)5.91s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)847msTempo de resposta (máx.)1.09sTempo de resposta (total)1.69s
Específico do domínio
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)464msTempo de resposta (máx.)622msTempo de resposta (total)1.39s
Inteligência geral
: 4.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)552msTempo de resposta (máx.)552msTempo de resposta (total)552ms
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)514msTempo de resposta (máx.)582msTempo de resposta (total)1.03s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.27sTempo de resposta (máx.)1.27sTempo de resposta (total)1.27s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 9Não seguiu as instruções: 5Tempo de resposta (médio)11.57sTempo de resposta (máx.)81.80sTempo de resposta (total)127.32s…
Total de testes: 17Testes errados: 14Taxa de acerto por tentativa: 25.5%Testes instáveis: 2…Tokens de saída: 2,941Tokens de raciocínio: 0Tempo de resposta: médio 11.57s · total 127.32s · máx. 81.80s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.28sTempo de resposta (máx.)4.28sTempo de resposta (total)4.28s
Análise e extração de dados
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)81.80sTempo de resposta (máx.)81.80sTempo de resposta (total)81.80s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)638msTempo de resposta (máx.)638msTempo de resposta (total)638ms
Inteligência geral
: 6.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.39sTempo de resposta (máx.)1.39sTempo de resposta (total)1.39s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.64sTempo de resposta (máx.)2.64sTempo de resposta (total)2.64s
Total de testes: 17Testes errados: 13Taxa de acerto por tentativa: 39.2%Testes instáveis: 7…Tokens de saída: 38,719Tokens de raciocínio: 65,465Tempo de resposta: médio 33.44s · total 334.39s · máx. 174.55s
Combinado
: 2.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Chamada de ferramenta inválida: 1Tempo de resposta (médio)65.57sTempo de resposta (máx.)65.57sTempo de resposta (total)65.57s
Análise e extração de dados
: 6.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem resposta: 1Tempo de resposta (médio)1.51sTempo de resposta (máx.)1.51sTempo de resposta (total)1.51s
Específico do domínio
: 3.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Sem resposta: 1Tempo de resposta (médio)174.55sTempo de resposta (máx.)174.55sTempo de resposta (total)174.55s
Inteligência geral
: 3.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)18.14sTempo de resposta (máx.)18.14sTempo de resposta (total)18.14s
Seguimento de instruções
: 6.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.97sTempo de resposta (máx.)2.97sTempo de resposta (total)2.97s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)15.95sTempo de resposta (máx.)15.95sTempo de resposta (total)15.95s
Total de testes: 17Testes errados: 14Taxa de acerto por tentativa: 35.3%Testes instáveis: 6…Tokens de saída: 18,141Tokens de raciocínio: 141,204Tempo de resposta: médio 69.21s · total 968.99s · máx. 226.38s
Truques anti-IA
: 5.1 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 2Resposta incorreta: 1Tempo de resposta (médio)34.44sTempo de resposta (máx.)57.86sTempo de resposta (total)103.31s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
Específico do domínio
: 3.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 3Tempo de resposta (médio)137.75sTempo de resposta (máx.)202.61sTempo de resposta (total)413.24s
Inteligência geral
: 2.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Tempo de resposta (médio)226.38sTempo de resposta (máx.)226.38sTempo de resposta (total)226.38s
Seguimento de instruções
: 6.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Tempo esgotado: 1Tempo de resposta (médio)17.15sTempo de resposta (máx.)28.54sTempo de resposta (total)34.29s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)4.31sTempo de resposta (máx.)4.31sTempo de resposta (total)4.31s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 12Não seguiu as instruções: 2Tempo de resposta (médio)1.76sTempo de resposta (máx.)5.51sTempo de resposta (total)17.56s…
Total de testes: 17Testes errados: 14Taxa de acerto por tentativa: 23.5%Testes instáveis: 2…Tokens de saída: 1,154Tokens de raciocínio: 0Tempo de resposta: médio 1.76s · total 17.56s · máx. 5.51s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.33sTempo de resposta (máx.)3.33sTempo de resposta (total)3.33s
Análise e extração de dados
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)943msTempo de resposta (máx.)943msTempo de resposta (total)943ms
Específico do domínio
: 5.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)1.06sTempo de resposta (máx.)1.06sTempo de resposta (total)1.06s
Inteligência geral
: 4.4 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.08sTempo de resposta (máx.)1.08sTempo de resposta (total)1.08s
Seguimento de instruções
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)923msTempo de resposta (máx.)923msTempo de resposta (total)923ms
Resolução de quebra-cabeças
: 3.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.28sTempo de resposta (máx.)1.36sTempo de resposta (total)2.56s
Chamada de ferramentas
: 2.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)5.51sTempo de resposta (máx.)5.51sTempo de resposta (total)5.51s
Total de testes: 17Testes errados: 14Taxa de acerto por tentativa: 27.5%Testes instáveis: 4…Tokens de saída: 67,796Tokens de raciocínio: 0Tempo de resposta: médio 2.79s · total 36.29s · máx. 19.68s
Truques anti-IA
: 3.2 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)1.19sTempo de resposta (máx.)2.73sTempo de resposta (total)4.76s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)2.87sTempo de resposta (máx.)2.87sTempo de resposta (total)2.87s
Específico do domínio
: 5.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)564msTempo de resposta (máx.)564msTempo de resposta (total)564ms
Inteligência geral
: 4.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.67sTempo de resposta (máx.)1.67sTempo de resposta (total)1.67s
Seguimento de instruções
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)857msTempo de resposta (máx.)955msTempo de resposta (total)1.71s
Resolução de quebra-cabeças
: 3.6 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)1.38sTempo de resposta (máx.)1.74sTempo de resposta (total)2.75s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.28sTempo de resposta (máx.)2.28sTempo de resposta (total)2.28s
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 12Não seguiu as instruções: 3Tempo de resposta (médio)1.39sTempo de resposta (máx.)3.84sTempo de resposta (total)23.70s…
Total de testes: 17Testes errados: 15Taxa de acerto por tentativa: 29.4%Testes instáveis: 6…Tokens de saída: 2,185Tokens de raciocínio: 0Tempo de resposta: médio 1.39s · total 23.70s · máx. 3.84s
Truques anti-IA
: 3.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 4Tempo de resposta (médio)1.18sTempo de resposta (máx.)1.81sTempo de resposta (total)4.70s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)3.84sTempo de resposta (máx.)3.84sTempo de resposta (total)3.84s
Análise e extração de dados
: 6.5 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.11sTempo de resposta (máx.)1.25sTempo de resposta (total)2.23s
Específico do domínio
: 2.9 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)926msTempo de resposta (máx.)959msTempo de resposta (total)2.78s
Inteligência geral
: 3.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)1.31sTempo de resposta (máx.)1.31sTempo de resposta (total)1.31s
Chamada de ferramentas
: 10.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)3.40sTempo de resposta (máx.)3.40sTempo de resposta (total)3.40s
Total de testes: 16Testes errados: 15Taxa de acerto por tentativa: 14.6%Testes instáveis: 2…Tokens de saída: 1,185Tokens de raciocínio: 0Tempo de resposta: médio 811ms · total 11.35s · máx. 2.88s
Truques anti-IA
: 3.3 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)471msTempo de resposta (máx.)872msTempo de resposta (total)1.41s
Combinado
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms
Análise e extração de dados
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)714msTempo de resposta (máx.)987msTempo de resposta (total)1.43s
Inteligência geral
: 4.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Não seguiu as instruções: 1Tempo de resposta (médio)395msTempo de resposta (máx.)395msTempo de resposta (total)395ms
Seguimento de instruções
: 4.8 Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 2Tempo de resposta (médio)1.09sTempo de resposta (máx.)1.90sTempo de resposta (total)2.18s
Chamada de ferramentas
: 3.0 Um teste é totalmente aprovado apenas quando todas as execuções passam.Erro de API: 1Tempo de resposta (médio)0msTempo de resposta (máx.)0msTempo de resposta (total)0ms