Ranking de Llamada de herramientas x Error de API

Mira qué modelos de IA tienen más probabilidades de caer en Error de API dentro de Llamada de herramientas, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

Modelo más afectado

Kimi K3 1

Motivos de fallo

Error de API17 Llamada de herramienta no válida9 No siguió las instrucciones8 Respuesta incorrecta3 Sin respuesta2

Categorías

Programación45 Combinado26 Llamada de herramientas17 Análisis y extracción de datos14 Trucos anti-IA14 Cultura general13 Inteligencia general12 Resolución de acertijos12 Específico del dominio7 Seguimiento de instrucciones1

17/17

Rango	Modelo	Empresa	Cantidad de Error de API	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#33	Kimi K3 max	Moonshot AI	1	3.0	$3.112	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $3.112 Tiempo de respuesta (promedio) 0ms
#52	Kimi K2.7 Code medium	Moonshot AI	1	3.0	$0.751	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.751 Tiempo de respuesta (promedio) 0ms
#74	GLM 5.1 medium	Z.ai	1	3.0	$0.535	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.535 Tiempo de respuesta (promedio) 0ms
#79	Gemini 3.5 Flash none	Google	1	3.0	$1.079	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $1.079 Tiempo de respuesta (promedio) 0ms
#90	Qwen3.6 35B A3B medium	Qwen	1	3.0	$0.746	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.746 Tiempo de respuesta (promedio) 0ms
#110	Gemma 4 31B medium	Google	1	3.0	$0.163	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.163 Tiempo de respuesta (promedio) 0ms
#115	Gemma 4 31B none	Google	1	3.0	$0.035	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.035 Tiempo de respuesta (promedio) 0ms
#153	Hy3 preview low	Tencent	1	2.8	$0.015	0/1	17.8s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.015 Tiempo de respuesta (promedio) 17.8s
#161	Qwen3.6 35B A3B none	Qwen	1	3.0	$0.061	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.061 Tiempo de respuesta (promedio) 0ms
#179	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.026 Tiempo de respuesta (promedio) 0ms
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	3.0	$5.599	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $5.599 Tiempo de respuesta (promedio) 0ms
#202	Grok Build 0.1 none	X AI	1	3.0	$0.547	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.547 Tiempo de respuesta (promedio) 0ms
#206	gpt-oss-120b none	OpenAI	1	3.0	$0.010	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.010 Tiempo de respuesta (promedio) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.0	$0.000	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 0ms

Filtrar modelos

Mejores modelos por Cantidad de Error de API

Cantidad de Error de API vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Llamada de herramientas: Error de API

Filtrar modelos

Mejores modelos por Cantidad de Error de API

Cantidad de Error de API vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado