Ranking de Combinado x Error de API

Mira qué modelos de IA tienen más probabilidades de caer en Error de API dentro de Combinado, para detectar puntos débiles más rápido. Ordenar por: Tiempo de respuesta (promedio) ↓.

Modelos mostrados

Fallos totales

Modelo más afectado

Qwen3.6 35B A3B 1

Motivos de fallo

Llamada de herramienta no válida91 Respuesta incorrecta68 Sin respuesta29 Error de API26 Tiempo agotado5 Formato extra1 No siguió las instrucciones1

Categorías

Programación45 Combinado26 Llamada de herramientas17 Análisis y extracción de datos14 Trucos anti-IA14 Cultura general13 Inteligencia general12 Resolución de acertijos12 Específico del dominio7 Seguimiento de instrucciones1

24/24

Rango	Modelo	Empresa	Cantidad de Error de API	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#90	Qwen3.6 35B A3B medium	Qwen	1	3.0	$0.746	0/2	817.6s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.746 Tiempo de respuesta (promedio) 817.6s
#130	Step 3.5 Flash medium	Stepfun	1	6.5	$0.108	1/2	813.7s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.108 Tiempo de respuesta (promedio) 813.7s
#110	Gemma 4 31B medium	Google	1	2.9	$0.163	0/2	433.1s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.163 Tiempo de respuesta (promedio) 433.1s
#140	Nemotron 3 Super medium	NVIDIA	1	6.4	$0.050	1/2	259.9s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.050 Tiempo de respuesta (promedio) 259.9s
#33	Kimi K3 max	Moonshot AI	1	6.5	$3.112	1/2	223.0s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $3.112 Tiempo de respuesta (promedio) 223.0s
#60	LongCat 2.0 medium	Meituan	1	7.3	$0.478	1/2	151.0s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.478 Tiempo de respuesta (promedio) 151.0s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	6.4	$0.467	1/2	135.7s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.467 Tiempo de respuesta (promedio) 135.7s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	1	6.4	$0.387	1/2	111.9s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.387 Tiempo de respuesta (promedio) 111.9s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	1	6.5	$0.077	1/2	74.5s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.077 Tiempo de respuesta (promedio) 74.5s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	1	3.8	$0.067	0/2	73.0s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.067 Tiempo de respuesta (promedio) 73.0s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	6.4	$0.041	1/2	55.9s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.041 Tiempo de respuesta (promedio) 55.9s
#161	Qwen3.6 35B A3B none	Qwen	1	3.8	$0.061	0/2	39.5s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.061 Tiempo de respuesta (promedio) 39.5s
#115	Gemma 4 31B none	Google	1	3.8	$0.035	0/2	30.0s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.035 Tiempo de respuesta (promedio) 30.0s
#129	Nemotron 3 Ultra none	NVIDIA	1	3.0	$0.095	0/2	21.1s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.095 Tiempo de respuesta (promedio) 21.1s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	6.5	$0.048	1/2	19.6s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.048 Tiempo de respuesta (promedio) 19.6s

Filtrar modelos

Mejores modelos por Cantidad de Error de API

Cantidad de Error de API vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Combinado: Error de API

Filtrar modelos

Mejores modelos por Cantidad de Error de API

Cantidad de Error de API vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado