Fallos por categoría de AI BENCHY
Específico del dominio: Formato extra
Específico del dominio
Formato extra
Mira qué modelos de IA tienen más probabilidades de caer en Formato extra dentro de Específico del dominio, para detectar puntos débiles más rápido.
Motivos de fallo
| Rango | Modelo | Empresa | Cantidad de Formato extra | Puntuación de categoría | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 2 | 5.3 | 1/3 | 37.9s |
| #69 | Claude Opus 4.6 medium | Anthropic | 2 | 3.0 | 0/3 | 83.4s |
| #47 | Grok Build 0.1 medium | X AI | 1 | 5.3 | 1/3 | 158.0s |
| #52 | Claude Sonnet 4.6 medium | Anthropic | 1 | 2.9 | 0/3 | 0ms |
| #56 | MiMo-V2.5 medium | Xiaomi | 1 | 5.3 | 1/3 | 34.5s |
| #65 | Grok 4.20 medium | X AI | 1 | 5.3 | 1/3 | 27.0s |
| #79 | Hunter Alpha medium | OpenRouter | 1 | 3.0 | 0/3 | 10.5s |
| #80 | Mimo V2 Omni medium | Xiaomi | 1 | 3.0 | 0/3 | 47.9s |
| #84 | Grok 4.20 Multi Agent Beta medium | X AI | 1 | 2.9 | 0/3 | 24.7s |
| #127 | Grok 4.20 none | X AI | 1 | 3.0 | 0/3 | 687ms |