Ranking de fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Cantidad de fallos ↑.

Modelos mostrados

Fallos totales

1585

Modelo más afectado

Gemini 3.6 Flash 1

Categorías

En la categoría Específico del dominio421 En la categoría Trucos anti-IA293 En la categoría Programación259 En la categoría Resolución de acertijos204 En la categoría Cultura general172 En la categoría Combinado69 En la categoría Inteligencia general62 En la categoría Seguimiento de instrucciones61 En la categoría Análisis y extracción de datos41 En la categoría Llamada de herramientas3

215/215

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#216	LFM2-24B-A2B none	Liquid	9	2.2	$0.001	2/16	782ms
Pruebas totales 16 Pruebas incorrectas 14 Costo total $0.001 Tiempo de respuesta (promedio) 782ms
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10	7.4	$0.387	11/22	19.5s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.387 Tiempo de respuesta (promedio) 19.5s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	10	7.2	$0.482	11/22	20.8s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.482 Tiempo de respuesta (promedio) 20.8s
#75	Qwen3.7 Plus none	Qwen	10	7.2	$0.106	11/22	12.1s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.106 Tiempo de respuesta (promedio) 12.1s
#87	GPT-5.6 Sol none	OpenAI	10	6.9	$0.524	11/22	2.16s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.524 Tiempo de respuesta (promedio) 2.16s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	10	6.7	$0.476	11/22	25.6s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.476 Tiempo de respuesta (promedio) 25.6s
#103	Qwen3.6 Max Preview none	Qwen	10	6.6	$0.231	12/22	7.82s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.231 Tiempo de respuesta (promedio) 7.82s
#123	GPT-5.6 Luna low	OpenAI	10	6.2	$0.249	10/22	5.04s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.249 Tiempo de respuesta (promedio) 5.04s
#152	Owl Alpha medium	Openrouter	10	5.6	$0.000	8/21	11.9s
Pruebas totales 21 Pruebas incorrectas 13 Costo total $0.000 Tiempo de respuesta (promedio) 11.9s
#154	Owl Alpha none	Openrouter	10	5.6	$0.000	7/21	9.88s
Pruebas totales 21 Pruebas incorrectas 14 Costo total $0.000 Tiempo de respuesta (promedio) 9.88s
#162	Gemma 4 26B A4B none	Google	10	5.5	$0.015	8/22	7.64s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.015 Tiempo de respuesta (promedio) 7.64s
#163	Mimo V2 Omni none	Xiaomi	10	5.5	$0.021	8/21	2.44s
Pruebas totales 21 Pruebas incorrectas 13 Costo total $0.021 Tiempo de respuesta (promedio) 2.44s
#197	Grok 4.20 Beta none	X AI	10	4.4	$0.087	6/18	1.19s
Pruebas totales 18 Pruebas incorrectas 12 Costo total $0.087 Tiempo de respuesta (promedio) 1.19s
#198	Laguna M.1 none	Poolside	10	4.4	$0.009	4/19	2.89s
Pruebas totales 19 Pruebas incorrectas 15 Costo total $0.009 Tiempo de respuesta (promedio) 2.89s
#203	Grok 4.20 none	X AI	10	4.1	$0.057	6/18	1.11s
Pruebas totales 18 Pruebas incorrectas 12 Costo total $0.057 Tiempo de respuesta (promedio) 1.11s

Fallos por Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)