Ranking de modelos de Llamada de herramientas

Mira qué modelos de IA rinden mejor en Llamada de herramientas, cuáles se mantienen fiables y dónde aparecen las mayores diferencias.

Modelos mostrados

Promedio de Puntuación de Llamada de herramientas

8.8

Mejor modelo

Gemini 3.6 Flash 10.0

Motivos de fallo

Con motivo de fallo Error de API17 Con motivo de fallo Llamada de herramienta no válida9 Con motivo de fallo No siguió las instrucciones8 Con motivo de fallo Respuesta incorrecta3 Con motivo de fallo Sin respuesta2

216/216

Rango	Modelo	Empresa	Puntuación de Llamada de herramientas	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#91	GPT-5.5 none	OpenAI	10.0	6.9	$0.544	1/1	3.90s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.544 Tiempo de respuesta (promedio) 3.90s
#92	Gemini 3.5 Flash minimal	Google	10.0	6.8	$0.300	1/1	2.79s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.300 Tiempo de respuesta (promedio) 2.79s
#93	Gemini 3 Flash Preview none	Google	10.0	6.8	$0.085	1/1	3.35s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.085 Tiempo de respuesta (promedio) 3.35s
#96	LongCat 2.0 low	Meituan	10.0	6.7	$0.391	1/1	10.8s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.391 Tiempo de respuesta (promedio) 10.8s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	10.0	6.7	$0.476	1/1	5.93s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.476 Tiempo de respuesta (promedio) 5.93s
#99	Claude Opus 4.7 none	Anthropic	10.0	6.6	$0.505	1/1	4.74s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.505 Tiempo de respuesta (promedio) 4.74s
#100	Gemma 4 26B A4B medium	Google	10.0	6.6	$0.089	1/1	9.01s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.089 Tiempo de respuesta (promedio) 9.01s
#101	GLM 5.2 none	Z.ai	10.0	6.6	$0.128	1/1	15.8s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.128 Tiempo de respuesta (promedio) 15.8s
#102	LongCat 2.0 high	Meituan	10.0	6.6	$0.469	1/1	10.0s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.469 Tiempo de respuesta (promedio) 10.0s
#103	Qwen3.6 Max Preview none	Qwen	10.0	6.6	$0.231	1/1	5.27s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.231 Tiempo de respuesta (promedio) 5.27s
#104	Gemini 3.5 Flash-Lite medium	Google	10.0	6.5	$0.369	1/1	2.63s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.369 Tiempo de respuesta (promedio) 2.63s
#105	Qwen3.6 27B medium	Qwen	10.0	6.5	$0.779	1/1	16.9s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.779 Tiempo de respuesta (promedio) 16.9s
#106	Hy3 preview medium	Tencent	10.0	6.5	$0.018	1/1	15.0s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.018 Tiempo de respuesta (promedio) 15.0s
#107	MiMo-V2.5 medium	Xiaomi	10.0	6.5	$0.082	1/1	7.29s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.082 Tiempo de respuesta (promedio) 7.29s
#108	Laguna XS 2.1 medium	Poolside	10.0	6.5	$0.068	1/1	3.01s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.068 Tiempo de respuesta (promedio) 3.01s

Ranking de Llamada de herramientas

Filtrar modelos

Mejores modelos por Puntuación de Llamada de herramientas

Puntuación de Llamada de herramientas vs costo total

Mejores modelos por Tiempo de respuesta (promedio)