AI BENCHY
Advertise here

Fallos AI BENCHY

Fallos por Llamada de herramienta no válida

Mira qué modelos de IA se encuentran con Llamada de herramienta no válida con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Pruebas correctas ↑.

Modelos mostrados

9

Fallos totales

26

Modelo más afectado

Granite 4.1 8B 1
Rango Modelo Empresa Cantidad de Llamada de herramienta no válida Puntuación Pruebas correctas Tiempo de respuesta (promedio)
#106 Grok 4.20 Beta none X AI 1 5.8 6/18 1.19s
#112 GLM 5.1 none Z.ai 1 5.7 7/21 4.10s
#118 Qwen3.6 27B none Qwen 1 5.6 7/21 3.72s
#119 Cobuddy medium Baidu 1 5.6 7/21 39.9s
#127 Grok 4.20 none X AI 1 5.4 6/18 1.11s
#128 Qwen3.6 Flash none Qwen 1 5.4 7/21 1.60s
#78 Qwen3.6 27B medium Qwen 1 6.8 10/21 59.7s
#59 GLM 5V Turbo medium Z.ai 2 7.2 11/21 23.1s
#32 Gemini 3.5 Flash minimal Google 1 7.7 14/21 1.57s

Mejores modelos por Cantidad de Llamada de herramienta no válida

Cantidad de Llamada de herramienta no válida vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)