Ranking de fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Pruebas correctas ↑.

Modelos mostrados

Fallos totales

1585

Modelo más afectado

Granite 4.1 8B 13

Categorías

En la categoría Específico del dominio421 En la categoría Trucos anti-IA293 En la categoría Programación259 En la categoría Resolución de acertijos204 En la categoría Cultura general172 En la categoría Combinado69 En la categoría Inteligencia general62 En la categoría Seguimiento de instrucciones61 En la categoría Análisis y extracción de datos41 En la categoría Llamada de herramientas3

215/215

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#130	Qwen3.6 Flash none	Qwen	12	6.1	$0.062	7/22	3.74s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.062 Tiempo de respuesta (promedio) 3.74s
#133	Qwen3.5-35B-A3B none	Qwen	12	6.1	$0.106	7/22	12.7s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.106 Tiempo de respuesta (promedio) 12.7s
#144	Kimi K2.6 none	Moonshot AI	11	5.8	$0.184	7/22	19.6s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.184 Tiempo de respuesta (promedio) 19.6s
#145	GPT-5.4 none	OpenAI	14	5.8	$0.397	7/22	2.07s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.397 Tiempo de respuesta (promedio) 2.07s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9	5.6	$0.077	7/22	15.9s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.077 Tiempo de respuesta (promedio) 15.9s
#157	GLM 5.1 none	Z.ai	13	5.5	$0.164	7/22	6.70s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.164 Tiempo de respuesta (promedio) 6.70s
#158	Qwen3.6 27B none	Qwen	11	5.5	$0.087	7/22	10.7s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.087 Tiempo de respuesta (promedio) 10.7s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	7	5.4	$0.041	7/22	10.1s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.041 Tiempo de respuesta (promedio) 10.1s
#153	Mimo V2 PRO none	Xiaomi	11	5.6	$0.045	7/21	2.27s
Pruebas totales 21 Pruebas incorrectas 14 Costo total $0.045 Tiempo de respuesta (promedio) 2.27s
#154	Owl Alpha none	Openrouter	10	5.6	$0.000	7/21	9.88s
Pruebas totales 21 Pruebas incorrectas 14 Costo total $0.000 Tiempo de respuesta (promedio) 9.88s
#194	Cobuddy medium	Baidu	9	4.7	$0.000	7/21	39.9s
Pruebas totales 21 Pruebas incorrectas 14 Costo total $0.000 Tiempo de respuesta (promedio) 39.9s
#197	Grok 4.20 Beta none	X AI	10	4.4	$0.087	6/18	1.19s
Pruebas totales 18 Pruebas incorrectas 12 Costo total $0.087 Tiempo de respuesta (promedio) 1.19s
#202	Hunter Alpha none	OpenRouter	9	4.2	$0.000	6/18	4.70s
Pruebas totales 18 Pruebas incorrectas 12 Costo total $0.000 Tiempo de respuesta (promedio) 4.70s
#203	Grok 4.20 none	X AI	10	4.1	$0.057	6/18	1.11s
Pruebas totales 18 Pruebas incorrectas 12 Costo total $0.057 Tiempo de respuesta (promedio) 1.11s
#109	Qwen3.5-27B none	Qwen	12	6.5	$0.090	8/22	4.76s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.090 Tiempo de respuesta (promedio) 4.76s

Fallos por Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)