AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Fallos AI BENCHY

Fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

15

Fallos totales

572

Modelo más afectado

Mercury 2 13
Rango Modelo Empresa Cantidad de Respuesta incorrecta Puntuación Pruebas correctas Tiempo de respuesta (promedio)
#91 Mercury 2 none Inception 13 4.8 4/18 613ms
#83 Mistral Small 4 none Mistral 11 5.2 5/18 665ms
#98 LFM2-24B-A2B none Liquid 9 4.1 1/16 811ms
#62 Gemini 2.5 Flash none Google 10 6.2 7/18 903ms
#82 Grok 4.20 none X AI 9 5.2 5/18 1.11s
#86 GPT-5.4 Mini none OpenAI 10 5.1 5/18 1.17s
#79 Grok 4.20 Beta none X AI 10 5.3 4/18 1.19s
#85 Elephant none Openrouter 9 5.2 5/18 1.23s
#81 Elephant medium Openrouter 9 5.2 5/18 1.27s
#29 Gemini 3.1 Flash Lite Preview none Google 4 7.9 12/18 1.30s
#96 GPT-5.4 Nano none OpenAI 13 4.5 2/18 1.40s
#90 Qwen3.5-9B none Qwen 10 4.8 4/18 1.47s
#66 GPT-5.4 none OpenAI 10 5.9 7/18 1.51s
#21 Gemini 3 Flash Preview none Google 5 8.1 13/18 1.65s
#67 Qwen3.5-27B none Qwen 10 5.9 6/18 1.74s

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)