Falhas por categoria AI BENCHY
Combinado
Resposta incorreta
Combinado
Resposta incorreta
Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Combinado, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↑.
Motivos de falha relacionados
| Posição | Modelo | Empresa | Contagem de Resposta incorreta | Pontuação da categoria | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #51 | Mercury 2 none | Inception | 1 | 10.0 | 0/1 | 606ms |
| #54 | MiMo-V2-Flash none | Xiaomi | 1 | 10.0 | 0/1 | 2.87s |
| #44 | GPT-5.4 none | OpenAI | 1 | 10.0 | 0/1 | 2.89s |
| #22 | Gemini 3.1 Flash Lite Preview none | 1 | 10.0 | 0/1 | 3.20s | |
| #5 | Gemini 3 Flash Preview low | 1 | 10.0 | 0/1 | 3.27s | |
| #53 | Grok 4.1 Fast none | X AI | 1 | 10.0 | 0/1 | 3.33s |
| #20 | Gemini 3 Flash Preview none | 1 | 10.0 | 0/1 | 3.56s | |
| #50 | Qwen3 Coder Next medium | Qwen | 1 | 10.0 | 0/1 | 4.28s |
| #38 | Gemini 2.5 Flash none | 1 | 10.0 | 0/1 | 4.39s | |
| #31 | GLM 5 none | Z.ai | 1 | 10.0 | 0/1 | 4.98s |
| #37 | Qwen3.5-Flash none | Qwen | 1 | 10.0 | 0/1 | 6.22s |
| #29 | Qwen3.5 Plus 2026-02-15 none | Qwen | 1 | 10.0 | 0/1 | 6.65s |
| #47 | GPT-4o-mini none | OpenAI | 1 | 10.0 | 0/1 | 7.58s |
| #45 | Trinity Large Preview none | Arcee AI | 1 | 10.0 | 0/1 | 8.91s |
| #41 | Qwen3.5-27B none | Qwen | 1 | 10.0 | 0/1 | 9.39s |
| #6 | Gemini 3 Pro Preview medium | 1 | 10.0 | 0/1 | 10.4s | |
| #17 | Gemini 3.1 Flash Lite Preview low | 1 | 10.0 | 0/1 | 11.9s | |
| #46 | Kimi K2.5 none | Moonshot AI | 1 | 10.0 | 0/1 | 19.2s |
| #48 | Qwen3 Coder Next none | Qwen | 1 | 10.0 | 0/1 | 45.1s |
| #40 | Qwen3.5-122B-A10B none | Qwen | 1 | 10.0 | 0/1 | 46.0s |
| #42 | Qwen3.5-35B-A3B none | Qwen | 1 | 10.0 | 0/1 | 47.4s |