Fallos AI BENCHY
Fallos por Respuesta incorrecta
Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir.
Categorías
En la categoría Específico del dominio314 En la categoría Trucos anti-IA245 En la categoría Programación194 En la categoría Resolución de acertijos147 En la categoría Cultura general130 En la categoría Seguimiento de instrucciones53 En la categoría Combinado52 En la categoría Análisis y extracción de datos35 En la categoría Inteligencia general32 En la categoría Llamada de herramientas2
| Rango | Modelo | Empresa | Cantidad de Respuesta incorrecta | Puntuación | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #160 | LFM2-24B-A2B none | Liquid | 9 | 4.2 | 2/16 | 782ms |
| #162 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 9 | 4.1 | 2/19 | 728ms |
| #36 | Qwen3.5 Plus 2026-04-20 medium | Qwen | 8 | 7.6 | 13/21 | 46.4s |
| #39 | Qwen3.6 Flash medium | Qwen | 8 | 7.5 | 12/21 | 19.2s |
| #48 | Gemini 3 Flash Preview none | 8 | 7.4 | 13/21 | 1.65s | |
| #57 | Step 3.7 Flash low | Stepfun | 8 | 7.3 | 12/21 | 15.7s |
| #70 | GPT-5.4 Nano medium | OpenAI | 8 | 7.0 | 11/21 | 12.0s |
| #81 | Mercury 2 medium | Inception | 8 | 6.6 | 10/21 | 2.24s |
| #85 | Gemma 4 31B none | 8 | 6.5 | 10/21 | 4.05s | |
| #87 | Gemini 3.1 Flash Lite minimal | 8 | 6.4 | 10/21 | 1.33s | |
| #126 | gpt-oss-120b none | OpenAI | 8 | 5.4 | 6/19 | 21.6s |
| #146 | Laguna Xs.2 none | Poolside | 8 | 4.8 | 5/19 | 806ms |
| #156 | Hy3 preview none | Tencent | 8 | 4.4 | 4/21 | 12.9s |
| #34 | Qwen3.7 Max none | Qwen | 7 | 7.7 | 14/21 | 1.30s |
| #40 | Gemini 3.1 Flash Lite Preview medium | 7 | 7.5 | 13/21 | 3.96s |