Ranking de fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

Fallos totales

1585

Modelo más afectado

Nemotron 3 Nano Omni 30b A3b Reasoning 9

Categorías

En la categoría Específico del dominio421 En la categoría Trucos anti-IA293 En la categoría Programación259 En la categoría Resolución de acertijos204 En la categoría Cultura general172 En la categoría Combinado69 En la categoría Inteligencia general62 En la categoría Seguimiento de instrucciones61 En la categoría Análisis y extracción de datos41 En la categoría Llamada de herramientas3

215/215

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#127	gpt-oss-120b medium	OpenAI	9	6.1	$0.019	9/22	21.9s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.019 Tiempo de respuesta (promedio) 21.9s
#115	Mimo V2 PRO medium	Xiaomi	5	6.3	$0.333	12/21	22.2s
Pruebas totales 21 Pruebas incorrectas 9 Costo total $0.333 Tiempo de respuesta (promedio) 22.2s
#24	GPT-5.2 medium	OpenAI	3	8.4	$0.951	14/22	22.6s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.951 Tiempo de respuesta (promedio) 22.6s
#53	GLM 5 Turbo medium	Z.ai	4	7.6	$0.323	14/21	23.0s
Pruebas totales 21 Pruebas incorrectas 7 Costo total $0.323 Tiempo de respuesta (promedio) 23.0s
#98	GLM 5V Turbo medium	Z.ai	7	6.7	$0.457	11/21	23.1s
Pruebas totales 21 Pruebas incorrectas 10 Costo total $0.457 Tiempo de respuesta (promedio) 23.1s
#21	GPT-5.4 medium	OpenAI	5	8.5	$1.533	15/22	23.1s
Pruebas totales 22 Pruebas incorrectas 7 Costo total $1.533 Tiempo de respuesta (promedio) 23.1s
#42	GLM 5.2 medium	Z.ai	3	7.8	$0.187	15/21	23.3s
Pruebas totales 21 Pruebas incorrectas 6 Costo total $0.187 Tiempo de respuesta (promedio) 23.3s
#191	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
Pruebas totales 19 Pruebas incorrectas 10 Costo total $0.069 Tiempo de respuesta (promedio) 23.8s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9	6.9	$0.467	11/22	24.0s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.467 Tiempo de respuesta (promedio) 24.0s
#159	Hy3 preview low	Tencent	4	5.5	$0.015	10/21	24.6s
Pruebas totales 21 Pruebas incorrectas 11 Costo total $0.015 Tiempo de respuesta (promedio) 24.6s
#19	Muse Spark 1.1 medium	Meta	4	8.6	$1.357	15/22	25.0s
Pruebas totales 22 Pruebas incorrectas 7 Costo total $1.357 Tiempo de respuesta (promedio) 25.0s
#131	Qwen3.5-Flash none	Qwen	13	6.1	$0.073	8/22	25.3s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.073 Tiempo de respuesta (promedio) 25.3s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	10	6.7	$0.476	11/22	25.6s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.476 Tiempo de respuesta (promedio) 25.6s
#44	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $2.057 Tiempo de respuesta (promedio) 25.9s
#60	GPT-5.4 Mini medium	OpenAI	6	7.5	$0.756	12/22	25.9s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.756 Tiempo de respuesta (promedio) 25.9s

←

1 9 10 11 15

→

Fallos por Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)