Fallos por categoría de AI BENCHY
Específico del dominio: Respuesta incorrecta
Específico del dominio
Respuesta incorrecta
Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Específico del dominio, para detectar puntos débiles más rápido.
Motivos de fallo
| Rango | Modelo | Empresa | Cantidad de Respuesta incorrecta | Puntuación de categoría | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #87 | Qwen3 Coder Next none | Qwen | 2 | 5.3 | 1/3 | 962ms |
| #91 | Mercury 2 none | Inception | 2 | 5.3 | 1/3 | 534ms |
| #92 | Qwen3 Coder Next medium | Qwen | 2 | 5.3 | 1/3 | 638ms |
| #93 | GLM 4.7 Flash medium | Z.ai | 2 | 3.5 | 0/3 | 174.6s |
| #94 | MiMo-V2-Flash none | Xiaomi | 2 | 5.3 | 1/3 | 564ms |
| #95 | Grok 4.1 Fast none | X AI | 2 | 5.9 | 1/3 | 1.06s |
| #2 | Gemini 3.1 Pro Preview medium | 1 | 7.7 | 2/3 | 32.7s | |
| #4 | Claude Opus 4.7 none | Anthropic | 1 | 7.7 | 2/3 | 1.19s |
| #8 | Qwen3.5 Plus 2026-02-15 medium | Qwen | 1 | 5.3 | 1/3 | 17.5s |
| #10 | Qwen3.5-27B medium | Qwen | 1 | 5.3 | 1/3 | 79.5s |
| #14 | Gemma 4 31B medium | 1 | 7.7 | 2/3 | 38.5s | |
| #21 | Gemini 3 Flash Preview none | 1 | 7.7 | 2/3 | 963ms | |
| #23 | MiMo-V2-Pro medium | Xiaomi | 1 | 5.3 | 1/3 | 6.00s |
| #26 | Claude Sonnet 4.6 medium | Anthropic | 1 | 2.9 | 0/3 | 0ms |
| #27 | DeepSeek V3.2 medium | DeepSeek | 1 | 5.3 | 1/3 | 39.3s |