Fallos AI BENCHY
Fallos por Respuesta incorrecta
Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Pruebas correctas ↑.
Categorías
En la categoría Específico del dominio182 En la categoría Trucos anti-IA165 En la categoría Resolución de acertijos85 En la categoría Seguimiento de instrucciones44 En la categoría Combinado37 En la categoría Programación28 En la categoría Análisis y extracción de datos19 En la categoría Inteligencia general10 En la categoría Llamada de herramientas2
| Rango | Modelo | Empresa | Cantidad de Respuesta incorrecta | Puntuación | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #9 | Qwen3.6 Plus Preview medium | Qwen | 3 | 8.5 | 13/17 | 13.9s |
| #8 | Qwen3.5 Plus 2026-02-15 medium | Qwen | 2 | 8.5 | 14/18 | 46.6s |
| #12 | Gemini 3 PRO Preview medium | 3 | 8.4 | 14/18 | 9.06s | |
| #5 | Gemini 3 Flash Preview low | 3 | 8.8 | 15/18 | 6.01s | |
| #3 | Claude Opus 4.7 medium | Anthropic | 1 | 9.2 | 16/18 | 3.53s |
| #4 | Claude Opus 4.7 none | Anthropic | 2 | 9.2 | 16/18 | 3.13s |
| #2 | Gemini 3.1 Pro Preview medium | 1 | 9.6 | 17/18 | 16.0s |