Falhas por categoria AI BENCHY
Específico do domínio: Resposta incorreta
Específico do domínio
Resposta incorreta
Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Específico do domínio, para identificar pontos fracos mais rápido.
Motivos de falha
| Posição | Modelo | Empresa | Contagem de Resposta incorreta | Pontuação da categoria | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #16 | GPT-5.4 medium | OpenAI | 2 | 5.3 | 1/3 | 74.3s |
| #18 | GLM 5 Turbo medium | Z.ai | 2 | 2.9 | 0/3 | 71.1s |
| #22 | Gemini 3.1 Flash Lite Preview low | 2 | 5.3 | 1/3 | 2.36s | |
| #24 | Gemma 4 26B A4B medium | 2 | 2.9 | 0/3 | 23.6s | |
| #25 | Grok 4.20 Beta medium | X AI | 2 | 5.3 | 1/3 | 21.3s |
| #28 | GPT-5.2 Chat none | OpenAI | 2 | 5.3 | 1/3 | 17.8s |
| #29 | Gemini 3.1 Flash Lite Preview none | 2 | 5.3 | 1/3 | 942ms | |
| #30 | Step 3.5 Flash medium | Stepfun | 2 | 5.3 | 1/3 | 170.5s |
| #31 | GLM 5V Turbo medium | Z.ai | 2 | 5.3 | 1/3 | 38.1s |
| #38 | GPT-5.4 Nano medium | OpenAI | 2 | 5.9 | 1/3 | 38.2s |
| #41 | MiMo-V2-Flash medium | Xiaomi | 2 | 5.9 | 1/3 | 96.0s |
| #45 | GPT-5 Mini medium | OpenAI | 2 | 3.6 | 0/3 | 44.6s |
| #46 | Kimi K2.5 medium | Moonshot AI | 2 | 3.5 | 0/3 | 137.3s |
| #49 | Qwen3.5 Plus 2026-02-15 none | Qwen | 2 | 5.3 | 1/3 | 1.17s |
| #51 | Nemotron 3 Super medium | NVIDIA | 2 | 2.9 | 0/3 | 16.2s |