Fallos AI BENCHY
Fallos por Error de API
Mira qué modelos de IA se encuentran con Error de API con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Tiempo de respuesta (promedio) ↑.
Modelos mostrados
15
Fallos totales
144
Modelo más afectado
Nemotron 3 Nano Omni 30b A3b Reasoning 6Categorías
En la categoría Programación43 En la categoría Análisis y extracción de datos16 En la categoría Llamada de herramientas15 En la categoría Combinado13 En la categoría Resolución de acertijos13 En la categoría Trucos anti-IA13 En la categoría Cultura general12 En la categoría Inteligencia general12 En la categoría Específico del dominio6 En la categoría Seguimiento de instrucciones1
| Rango | Modelo | Empresa | Cantidad de Error de API | Puntuación | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #46 | Qwen3.6 35B A3B medium | Qwen | 2 | 7.4 | 13/21 | 18.1s |
| #64 | MiMo-V2-Flash medium | Xiaomi | 1 | 7.2 | 12/21 | 20.1s |
| #126 | gpt-oss-120b none | OpenAI | 3 | 5.4 | 6/19 | 21.6s |
| #51 | Mimo V2 PRO medium | Xiaomi | 1 | 7.4 | 12/21 | 22.2s |
| #89 | Hy3 preview low | Tencent | 7 | 6.4 | 10/21 | 24.6s |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 1 | 7.5 | 12/21 | 26.1s |
| #100 | Grok Build 0.1 none | X AI | 3 | 6.0 | 7/19 | 28.7s |
| #26 | Qwen3.6 Plus medium | Qwen | 1 | 7.9 | 14/21 | 30.7s |
| #105 | Nemotron 3 Super medium | NVIDIA | 3 | 5.8 | 8/21 | 32.0s |
| #55 | GLM 5.1 medium | Z.ai | 1 | 7.3 | 12/21 | 33.7s |
| #130 | MiniMax M2.7 medium | Minimax | 1 | 5.3 | 5/21 | 38.2s |
| #83 | Step 3.5 Flash none | Stepfun | 4 | 6.6 | 6/12 | 39.0s |
| #119 | Cobuddy medium | Baidu | 1 | 5.6 | 7/21 | 39.9s |
| #80 | Mimo V2 Omni medium | Xiaomi | 1 | 6.7 | 10/21 | 41.2s |
| #96 | Ring-2.6-1T none | Inclusionai | 5 | 6.2 | 9/21 | 55.1s |