| Truques anti-IA | Um teste é totalmente aprovado apenas quando todas as repetições passam. Sem respostas com falha. Tempo de resposta (médio) 3496ms Tempo de resposta (máx.) 4305ms Tempo de resposta (total) 10487ms Um teste é totalmente aprovado apenas quando todas as repetições passam. Posição: #5/29 86% Google: Gemini 3 Flash Preview - Raciocínio (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raciocínio (medium) 100.0% Google: Gemini 3 Pro Preview - Raciocínio (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raciocínio (medium) 100.0% Google: Gemini 3 Flash Preview - Raciocínio (low) 100.0% MoonshotAI: Kimi K2.5 - Sem raciocínio 0.0% 0.0% 100.0% | 10.00 Pontuação média em todos os testes de benchmark. Posição: #5/29 86% Google: Gemini 3 Flash Preview - Raciocínio (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raciocínio (medium) 10.00 Google: Gemini 3 Pro Preview - Raciocínio (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Raciocínio (medium) 10.00 Google: Gemini 3 Flash Preview - Raciocínio (low) 10.00 Z.ai: GLM 4.7 Flash - Sem raciocínio 1.00 1.00 10.00 | 10.00 A consistência reflete a estabilidade entre repetições (10 = muito consistente, mesmo que consistentemente errado). Posição: #5/29 86% Google: Gemini 3 Flash Preview - Raciocínio (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raciocínio (medium) 10.00 Google: Gemini 3 Pro Preview - Raciocínio (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Raciocínio (medium) 10.00 Google: Gemini 3 Flash Preview - Raciocínio (low) 10.00 Anthropic: Claude Opus 4.6 - Raciocínio (medium) 4.41 4.41 10.00 | 100.0% Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as repetições. Posição: #5/29 86% Google: Gemini 3 Flash Preview - Raciocínio (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raciocínio (medium) 100.0% Google: Gemini 3 Pro Preview - Raciocínio (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raciocínio (medium) 100.0% Google: Gemini 3 Flash Preview - Raciocínio (low) 100.0% xAI: Grok 4.1 Fast - Sem raciocínio 0.0% 0.0% 100.0% | 0 Testes instáveis tiveram resultados mistos entre repetições (pelo menos um acerto e uma falha). Posição: #5/29 86% Google: Gemini 3 Flash Preview - Raciocínio (medium) 0 Google: Gemini 3.1 Pro Preview - Raciocínio (medium) 0 Google: Gemini 3 Pro Preview - Raciocínio (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Raciocínio (medium) 0 Google: Gemini 3 Flash Preview - Raciocínio (low) 0 Anthropic: Claude Opus 4.6 - Raciocínio (medium) 2 0 2 | 6.23 Mede clareza, eficiência e consistência do raciocínio de forma independente da correção final da resposta. Nota: em alguns modelos Gemini, apenas texto parcial de raciocínio está disponível, então a pontuação de raciocínio pode ficar subestimada. Posição: #14/19 28% Anthropic: Claude Opus 4.6 - Raciocínio (medium) 10.00 OpenAI: gpt-oss-120b - Raciocínio (medium) 10.00 Anthropic: Claude Sonnet 4.6 - Raciocínio (medium) 9.89 Z.ai: GLM 5 - Raciocínio (medium) 9.83 StepFun: Step 3.5 Flash - Raciocínio (medium) 9.83 Google: Gemini 3 Flash Preview - Raciocínio (low) 6.23 Qwen: Qwen3 Coder Next - Raciocínio (medium) 4.00 4.00 10.00 | 3496ms | $0.00844 Custo total Posição: #16/29 46% StepFun: Step 3.5 Flash - Raciocínio (medium) $0.00000 OpenAI: GPT-4o-mini - Sem raciocínio $0.00018 Z.ai: GLM 4.7 Flash - Sem raciocínio $0.00020 Xiaomi: MiMo-V2-Flash - Sem raciocínio $0.00024 xAI: Grok 4.1 Fast - Sem raciocínio $0.00049 Google: Gemini 3 Flash Preview - Raciocínio (low) $0.00844 Anthropic: Claude Opus 4.6 - Raciocínio (medium) $0.05049 $0.00000 $0.05049 |
| Análise e extração de dados | Um teste é totalmente aprovado apenas quando todas as repetições passam. Sem respostas com falha. Tempo de resposta (médio) 9460ms Tempo de resposta (máx.) 14717ms Tempo de resposta (total) 18919ms Um teste é totalmente aprovado apenas quando todas as repetições passam. Posição: #5/29 86% Google: Gemini 3 Flash Preview - Raciocínio (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raciocínio (medium) 100.0% Google: Gemini 3 Pro Preview - Raciocínio (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raciocínio (medium) 100.0% Google: Gemini 3 Flash Preview - Raciocínio (low) 100.0% Z.ai: GLM 4.7 Flash - Sem raciocínio 0.0% 0.0% 100.0% | 10.00 Pontuação média em todos os testes de benchmark. Posição: #5/29 86% Google: Gemini 3 Flash Preview - Raciocínio (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raciocínio (medium) 10.00 Google: Gemini 3 Pro Preview - Raciocínio (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Raciocínio (medium) 10.00 Google: Gemini 3 Flash Preview - Raciocínio (low) 10.00 Z.ai: GLM 4.7 Flash - Sem raciocínio 0.50 0.50 10.00 | 10.00 A consistência reflete a estabilidade entre repetições (10 = muito consistente, mesmo que consistentemente errado). Posição: #5/29 86% Google: Gemini 3 Flash Preview - Raciocínio (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raciocínio (medium) 10.00 Google: Gemini 3 Pro Preview - Raciocínio (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Raciocínio (medium) 10.00 Google: Gemini 3 Flash Preview - Raciocínio (low) 10.00 Z.ai: GLM 5 - Raciocínio (medium) 5.56 5.56 10.00 | 100.0% Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as repetições. Posição: #5/29 86% Google: Gemini 3 Flash Preview - Raciocínio (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raciocínio (medium) 100.0% Google: Gemini 3 Pro Preview - Raciocínio (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raciocínio (medium) 100.0% Google: Gemini 3 Flash Preview - Raciocínio (low) 100.0% Xiaomi: MiMo-V2-Flash - Sem raciocínio 16.7% 0.0% 100.0% | 0 Testes instáveis tiveram resultados mistos entre repetições (pelo menos um acerto e uma falha). Posição: #5/29 86% Google: Gemini 3 Flash Preview - Raciocínio (medium) 0 Google: Gemini 3.1 Pro Preview - Raciocínio (medium) 0 Google: Gemini 3 Pro Preview - Raciocínio (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Raciocínio (medium) 0 Google: Gemini 3 Flash Preview - Raciocínio (low) 0 Z.ai: GLM 5 - Raciocínio (medium) 1 0 1 | 4.73 Mede clareza, eficiência e consistência do raciocínio de forma independente da correção final da resposta. Nota: em alguns modelos Gemini, apenas texto parcial de raciocínio está disponível, então a pontuação de raciocínio pode ficar subestimada. Posição: #17/19 11% OpenAI: gpt-oss-120b - Raciocínio (medium) 10.00 Z.ai: GLM 4.7 Flash - Raciocínio (medium) 9.87 Anthropic: Claude Sonnet 4.6 - Raciocínio (medium) 9.83 Anthropic: Claude Opus 4.6 - Raciocínio (medium) 9.83 Z.ai: GLM 5 - Raciocínio (medium) 9.80 Google: Gemini 3 Flash Preview - Raciocínio (low) 4.73 OpenAI: GPT-5.3-Codex - Raciocínio (medium) 1.25 1.25 10.00 | 9460ms | $0.01354 Custo total Posição: #18/29 39% StepFun: Step 3.5 Flash - Raciocínio (medium) $0.00000 Xiaomi: MiMo-V2-Flash - Raciocínio (medium) $0.00029 Xiaomi: MiMo-V2-Flash - Sem raciocínio $0.00029 Z.ai: GLM 4.7 Flash - Sem raciocínio $0.00050 OpenAI: gpt-oss-120b - Raciocínio (medium) $0.00052 Google: Gemini 3 Flash Preview - Raciocínio (low) $0.01354 Anthropic: Claude Opus 4.6 - Raciocínio (medium) $0.07755 $0.00000 $0.07755 |
| Específico do domínio | Um teste é totalmente aprovado apenas quando todas as repetições passam. Resposta incorreta: 2 Tempo de resposta (médio) 8314ms Tempo de resposta (máx.) 14399ms Tempo de resposta (total) 24941ms Um teste é totalmente aprovado apenas quando todas as repetições passam. Posição: #8/29 75% Google: Gemini 3 Flash Preview - Raciocínio (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raciocínio (medium) 66.7% Google: Gemini 3 Flash Preview - Sem raciocínio 66.7% Anthropic: Claude Sonnet 4.6 - Sem raciocínio 66.7% Z.ai: GLM 4.7 Flash - Sem raciocínio 66.7% Google: Gemini 3 Flash Preview - Raciocínio (low) 33.3% Anthropic: Claude Sonnet 4.6 - Raciocínio (medium) 0.0% 0.0% 100.0% | 4.00 Pontuação média em todos os testes de benchmark. Posição: #8/29 75% Google: Gemini 3 Flash Preview - Raciocínio (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raciocínio (medium) 7.00 Google: Gemini 3 Flash Preview - Sem raciocínio 7.00 Anthropic: Claude Sonnet 4.6 - Sem raciocínio 7.00 Z.ai: GLM 4.7 Flash - Sem raciocínio 7.00 Google: Gemini 3 Flash Preview - Raciocínio (low) 4.00 Anthropic: Claude Sonnet 4.6 - Raciocínio (medium) 1.00 1.00 10.00 | 4.41 A consistência reflete a estabilidade entre repetições (10 = muito consistente, mesmo que consistentemente errado). Posição: #23/29 21% Google: Gemini 3 Flash Preview - Raciocínio (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raciocínio (medium) 10.00 Google: Gemini 3 Pro Preview - Raciocínio (medium) 10.00 Google: Gemini 3 Flash Preview - Sem raciocínio 10.00 Anthropic: Claude Sonnet 4.6 - Sem raciocínio 10.00 Google: Gemini 3 Flash Preview - Raciocínio (low) 4.41 4.41 10.00 | 55.5% Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as repetições. Posição: #11/29 64% Google: Gemini 3 Flash Preview - Raciocínio (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raciocínio (medium) 66.7% Google: Gemini 3 Flash Preview - Sem raciocínio 66.7% Anthropic: Claude Sonnet 4.6 - Sem raciocínio 66.7% Z.ai: GLM 4.7 Flash - Sem raciocínio 66.7% Google: Gemini 3 Flash Preview - Raciocínio (low) 55.5% Z.ai: GLM 5 - Sem raciocínio 0.0% 0.0% 100.0% | 2 Testes instáveis tiveram resultados mistos entre repetições (pelo menos um acerto e uma falha). Posição: #23/29 21% Google: Gemini 3 Flash Preview - Raciocínio (medium) 0 Google: Gemini 3.1 Pro Preview - Raciocínio (medium) 0 Google: Gemini 3 Pro Preview - Raciocínio (medium) 0 Google: Gemini 3 Flash Preview - Sem raciocínio 0 Anthropic: Claude Sonnet 4.6 - Sem raciocínio 0 Google: Gemini 3 Flash Preview - Raciocínio (low) 2 0 2 | 1.83 Mede clareza, eficiência e consistência do raciocínio de forma independente da correção final da resposta. Nota: em alguns modelos Gemini, apenas texto parcial de raciocínio está disponível, então a pontuação de raciocínio pode ficar subestimada. Posição: #18/19 6% Xiaomi: MiMo-V2-Flash - Raciocínio (medium) 8.72 OpenAI: gpt-oss-120b - Raciocínio (medium) 8.53 StepFun: Step 3.5 Flash - Raciocínio (medium) 8.44 Z.ai: GLM 5 - Raciocínio (medium) 8.43 Z.ai: GLM 4.7 Flash - Raciocínio (medium) 8.21 Google: Gemini 3 Flash Preview - Raciocínio (low) 1.83 OpenAI: GPT-5.3-Codex - Raciocínio (medium) 1.00 1.00 8.72 | 8314ms | $0.01993 Custo total Posição: #18/29 39% StepFun: Step 3.5 Flash - Raciocínio (medium) $0.00000 Z.ai: GLM 4.7 Flash - Sem raciocínio $0.00005 Xiaomi: MiMo-V2-Flash - Sem raciocínio $0.00008 Qwen: Qwen3 Coder Next - Sem raciocínio $0.00010 Qwen: Qwen3 Coder Next - Raciocínio (medium) $0.00010 Google: Gemini 3 Flash Preview - Raciocínio (low) $0.01993 Anthropic: Claude Sonnet 4.6 - Raciocínio (medium) $0.64205 $0.00000 $0.64205 |
| Seguimento de instruções | Um teste é totalmente aprovado apenas quando todas as repetições passam. Não seguiu as instruções: 1 Tempo de resposta (médio) 7016ms Tempo de resposta (máx.) 7350ms Tempo de resposta (total) 14031ms Um teste é totalmente aprovado apenas quando todas as repetições passam. Posição: #14/29 54% Google: Gemini 3 Flash Preview - Raciocínio (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raciocínio (medium) 100.0% Google: Gemini 3 Pro Preview - Raciocínio (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raciocínio (medium) 100.0% OpenAI: GPT-5.2 - Raciocínio (medium) 100.0% Google: Gemini 3 Flash Preview - Raciocínio (low) 50.0% xAI: Grok 4.1 Fast - Sem raciocínio 0.0% 0.0% 100.0% | 7.50 Pontuação média em todos os testes de benchmark. Posição: #15/29 50% Google: Gemini 3 Flash Preview - Raciocínio (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raciocínio (medium) 10.00 Anthropic: Claude Sonnet 4.6 - Raciocínio (medium) 10.00 Z.ai: GLM 5 - Sem raciocínio 10.00 OpenAI: gpt-oss-120b - Raciocínio (medium) 10.00 Google: Gemini 3 Flash Preview - Raciocínio (low) 7.50 xAI: Grok 4.1 Fast - Sem raciocínio 1.00 1.00 10.00 | 9.99 A consistência reflete a estabilidade entre repetições (10 = muito consistente, mesmo que consistentemente errado). Posição: #17/29 43% Google: Gemini 3 Flash Preview - Raciocínio (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raciocínio (medium) 10.00 Google: Gemini 3 Pro Preview - Raciocínio (medium) 10.00 OpenAI: GPT-5.3-Codex - Raciocínio (medium) 10.00 OpenAI: GPT-5.2 - Raciocínio (medium) 10.00 Google: Gemini 3 Flash Preview - Raciocínio (low) 9.99 Xiaomi: MiMo-V2-Flash - Raciocínio (medium) 5.80 5.80 10.00 | 50.0% Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as repetições. Posição: #19/29 36% Google: Gemini 3 Flash Preview - Raciocínio (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raciocínio (medium) 100.0% Google: Gemini 3 Pro Preview - Raciocínio (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raciocínio (medium) 100.0% OpenAI: GPT-5.2 - Raciocínio (medium) 100.0% Google: Gemini 3 Flash Preview - Raciocínio (low) 50.0% xAI: Grok 4.1 Fast - Sem raciocínio 0.0% 0.0% 100.0% | 0 Testes instáveis tiveram resultados mistos entre repetições (pelo menos um acerto e uma falha). Posição: #5/29 86% Google: Gemini 3 Flash Preview - Raciocínio (medium) 0 Google: Gemini 3.1 Pro Preview - Raciocínio (medium) 0 Google: Gemini 3 Pro Preview - Raciocínio (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Raciocínio (medium) 0 Google: Gemini 3 Flash Preview - Raciocínio (low) 0 Google: Gemini 3 Flash Preview - Sem raciocínio 1 0 1 | 5.00 Mede clareza, eficiência e consistência do raciocínio de forma independente da correção final da resposta. Nota: em alguns modelos Gemini, apenas texto parcial de raciocínio está disponível, então a pontuação de raciocínio pode ficar subestimada. Posição: #17/19 11% Anthropic: Claude Sonnet 4.6 - Raciocínio (medium) 10.00 Z.ai: GLM 5 - Raciocínio (medium) 9.75 StepFun: Step 3.5 Flash - Raciocínio (medium) 9.67 Anthropic: Claude Opus 4.6 - Raciocínio (medium) 9.50 OpenAI: gpt-oss-120b - Raciocínio (medium) 9.50 Google: Gemini 3 Flash Preview - Raciocínio (low) 5.00 OpenAI: GPT-5.3-Codex - Raciocínio (medium) 1.00 1.00 10.00 | 7016ms | $0.00878 Custo total Posição: #20/29 32% StepFun: Step 3.5 Flash - Raciocínio (medium) $0.00000 Z.ai: GLM 4.7 Flash - Sem raciocínio $0.00006 Xiaomi: MiMo-V2-Flash - Sem raciocínio $0.00008 Qwen: Qwen3 Coder Next - Sem raciocínio $0.00013 Qwen: Qwen3 Coder Next - Raciocínio (medium) $0.00014 Google: Gemini 3 Flash Preview - Raciocínio (low) $0.00878 Google: Gemini 3.1 Pro Preview - Raciocínio (medium) $0.03134 $0.00000 $0.03134 |
| Puzzle Solving | Um teste é totalmente aprovado apenas quando todas as repetições passam. Sem respostas com falha. Tempo de resposta (médio) 6440ms Tempo de resposta (máx.) 10274ms Tempo de resposta (total) 19319ms Um teste é totalmente aprovado apenas quando todas as repetições passam. Posição: #5/29 86% Google: Gemini 3 Flash Preview - Raciocínio (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raciocínio (medium) 100.0% Google: Gemini 3 Pro Preview - Raciocínio (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raciocínio (medium) 100.0% Google: Gemini 3 Flash Preview - Raciocínio (low) 100.0% StepFun: Step 3.5 Flash - Raciocínio (medium) 0.0% 0.0% 100.0% | 10.00 Pontuação média em todos os testes de benchmark. Posição: #4/29 89% Google: Gemini 3.1 Pro Preview - Raciocínio (medium) 10.00 Google: Gemini 3 Pro Preview - Raciocínio (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Raciocínio (medium) 10.00 Google: Gemini 3 Flash Preview - Raciocínio (low) 10.00 Anthropic: Claude Sonnet 4.6 - Raciocínio (medium) 10.00 Xiaomi: MiMo-V2-Flash - Raciocínio (medium) 1.00 1.00 10.00 | 10.00 A consistência reflete a estabilidade entre repetições (10 = muito consistente, mesmo que consistentemente errado). Posição: #5/29 86% Google: Gemini 3 Flash Preview - Raciocínio (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raciocínio (medium) 10.00 Google: Gemini 3 Pro Preview - Raciocínio (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Raciocínio (medium) 10.00 Google: Gemini 3 Flash Preview - Raciocínio (low) 10.00 MiniMax: MiniMax M2.5 - Raciocínio (medium) 4.79 4.79 10.00 | 100.0% Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as repetições. Posição: #5/29 86% Google: Gemini 3 Flash Preview - Raciocínio (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raciocínio (medium) 100.0% Google: Gemini 3 Pro Preview - Raciocínio (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raciocínio (medium) 100.0% Google: Gemini 3 Flash Preview - Raciocínio (low) 100.0% OpenAI: GPT-4o-mini - Sem raciocínio 0.0% 0.0% 100.0% | 0 Testes instáveis tiveram resultados mistos entre repetições (pelo menos um acerto e uma falha). Posição: #5/29 86% Google: Gemini 3 Flash Preview - Raciocínio (medium) 0 Google: Gemini 3.1 Pro Preview - Raciocínio (medium) 0 Google: Gemini 3 Pro Preview - Raciocínio (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Raciocínio (medium) 0 Google: Gemini 3 Flash Preview - Raciocínio (low) 0 OpenAI: GPT-5 Nano - Raciocínio (medium) 2 0 2 | 7.50 Mede clareza, eficiência e consistência do raciocínio de forma independente da correção final da resposta. Nota: em alguns modelos Gemini, apenas texto parcial de raciocínio está disponível, então a pontuação de raciocínio pode ficar subestimada. Posição: #13/19 33% Z.ai: GLM 5 - Raciocínio (medium) 9.50 Anthropic: Claude Sonnet 4.6 - Raciocínio (medium) 9.44 Anthropic: Claude Opus 4.6 - Raciocínio (medium) 9.44 MoonshotAI: Kimi K2.5 - Raciocínio (medium) 9.26 StepFun: Step 3.5 Flash - Raciocínio (medium) 9.22 Google: Gemini 3 Flash Preview - Raciocínio (low) 7.50 Qwen: Qwen3 Coder Next - Raciocínio (medium) 4.33 4.33 9.50 | 6440ms | $0.01105 Custo total Posição: #17/29 43% StepFun: Step 3.5 Flash - Raciocínio (medium) $0.00000 Z.ai: GLM 4.7 Flash - Sem raciocínio $0.00008 OpenAI: GPT-4o-mini - Sem raciocínio $0.00028 xAI: Grok 4.1 Fast - Sem raciocínio $0.00053 Qwen: Qwen3 Coder Next - Raciocínio (medium) $0.00058 Google: Gemini 3 Flash Preview - Raciocínio (low) $0.01105 Qwen: Qwen3.5 Plus 2026-02-15 - Raciocínio (medium) $0.05508 $0.00000 $0.05508 |