AI BENCHY
Your ad here

Fallos AI BENCHY

Fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir.

Modelos mostrados

15

Fallos totales

572

Modelo más afectado

GPT-4o-mini 13
Rango Modelo Empresa Cantidad de Respuesta incorrecta Puntuación Pruebas correctas Tiempo de respuesta (promedio)
#89 GPT-4o-mini none OpenAI 13 4.9 4/18 2.00s
#91 Mercury 2 none Inception 13 4.8 4/18 613ms
#95 Grok 4.1 Fast none X AI 13 4.5 3/18 1.76s
#96 GPT-5.4 Nano none OpenAI 13 4.5 2/18 1.40s
#76 Kimi K2.5 none Moonshot AI 12 5.5 6/18 13.4s
#87 Qwen3 Coder Next none Qwen 12 5.1 4/18 10.2s
#94 MiMo-V2-Flash none Xiaomi 12 4.5 3/18 2.79s
#70 Qwen3.5-122B-A10B none Qwen 11 5.7 6/18 3.69s
#78 Trinity Large Preview none Arcee AI 11 5.3 5/18 5.07s
#83 Mistral Small 4 none Mistral 11 5.2 5/18 665ms
#61 Seed-2.0-Lite none Bytedance Seed 10 6.2 8/18 2.53s
#62 Gemini 2.5 Flash none Google 10 6.2 7/18 903ms
#66 GPT-5.4 none OpenAI 10 5.9 7/18 1.51s
#67 Qwen3.5-27B none Qwen 10 5.9 6/18 1.74s
#74 GLM 4.7 Flash none Z.ai 10 5.6 5/18 3.35s

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)