Ranking de modelos de Llamada de herramientas

Mira qué modelos de IA rinden mejor en Llamada de herramientas, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Pruebas correctas ↓.

Modelos mostrados

Promedio de Puntuación de Llamada de herramientas

8.8

Mejor modelo

Gemini 3.6 Flash 10.0

Motivos de fallo

Con motivo de fallo Error de API17 Con motivo de fallo Llamada de herramienta no válida9 Con motivo de fallo No siguió las instrucciones8 Con motivo de fallo Respuesta incorrecta3 Con motivo de fallo Sin respuesta2

216/216

Rango	Modelo	Empresa	Puntuación de Llamada de herramientas	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#86	DeepSeek V4 Pro none	DeepSeek	10.0	6.9	$0.096	1/1	7.40s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.096 Tiempo de respuesta (promedio) 7.40s
#87	GPT-5.6 Sol none	OpenAI	10.0	6.9	$0.524	1/1	3.70s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.524 Tiempo de respuesta (promedio) 3.70s
#88	MiMo-V2.5-Pro medium	Xiaomi	10.0	6.9	$0.187	1/1	16.9s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.187 Tiempo de respuesta (promedio) 16.9s
#89	Qwen3.6 Flash medium	Qwen	10.0	6.9	$0.738	1/1	4.00s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.738 Tiempo de respuesta (promedio) 4.00s
#90	Step 3.7 Flash high	Stepfun	10.0	6.9	$1.207	1/1	2.79s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $1.207 Tiempo de respuesta (promedio) 2.79s
#91	GPT-5.5 none	OpenAI	10.0	6.9	$0.544	1/1	3.90s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.544 Tiempo de respuesta (promedio) 3.90s
#92	Gemini 3.5 Flash minimal	Google	10.0	6.8	$0.300	1/1	2.79s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.300 Tiempo de respuesta (promedio) 2.79s
#93	Gemini 3 Flash Preview none	Google	10.0	6.8	$0.085	1/1	3.35s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.085 Tiempo de respuesta (promedio) 3.35s
#95	Gemini 3.5 Flash-Lite low	Google	9.8	6.7	$0.145	1/1	1.76s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.145 Tiempo de respuesta (promedio) 1.76s
#96	LongCat 2.0 low	Meituan	10.0	6.7	$0.391	1/1	10.8s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.391 Tiempo de respuesta (promedio) 10.8s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	10.0	6.7	$0.476	1/1	5.93s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.476 Tiempo de respuesta (promedio) 5.93s
#99	Claude Opus 4.7 none	Anthropic	10.0	6.6	$0.505	1/1	4.74s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.505 Tiempo de respuesta (promedio) 4.74s
#100	Gemma 4 26B A4B medium	Google	10.0	6.6	$0.089	1/1	9.01s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.089 Tiempo de respuesta (promedio) 9.01s
#101	GLM 5.2 none	Z.ai	10.0	6.6	$0.128	1/1	15.8s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.128 Tiempo de respuesta (promedio) 15.8s
#102	LongCat 2.0 high	Meituan	10.0	6.6	$0.469	1/1	10.0s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.469 Tiempo de respuesta (promedio) 10.0s

Ranking de Llamada de herramientas

Filtrar modelos

Mejores modelos por Puntuación de Llamada de herramientas

Puntuación de Llamada de herramientas vs costo total

Mejores modelos por Tiempo de respuesta (promedio)