Ranking de fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Pruebas correctas ↓.

Modelos mostrados

Fallos totales

1585

Modelo más afectado

Gemini 3.6 Flash 1

Categorías

En la categoría Específico del dominio421 En la categoría Trucos anti-IA293 En la categoría Programación259 En la categoría Resolución de acertijos204 En la categoría Cultura general172 En la categoría Combinado69 En la categoría Inteligencia general62 En la categoría Seguimiento de instrucciones61 En la categoría Análisis y extracción de datos41 En la categoría Llamada de herramientas3

215/215

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#80	DeepSeek V3.2 medium	DeepSeek	5	7.0	$0.078	11/22	68.6s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.078 Tiempo de respuesta (promedio) 68.6s
#84	Seed-2.0-Mini medium	Bytedance Seed	4	7.0	$0.101	11/22	92.5s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.101 Tiempo de respuesta (promedio) 92.5s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9	6.9	$0.467	11/22	24.0s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.467 Tiempo de respuesta (promedio) 24.0s
#87	GPT-5.6 Sol none	OpenAI	10	6.9	$0.524	11/22	2.16s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.524 Tiempo de respuesta (promedio) 2.16s
#90	Step 3.7 Flash high	Stepfun	6	6.9	$1.207	11/22	64.7s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $1.207 Tiempo de respuesta (promedio) 64.7s
#91	GPT-5.5 none	OpenAI	11	6.9	$0.544	11/22	2.36s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.544 Tiempo de respuesta (promedio) 2.36s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	10	6.7	$0.476	11/22	25.6s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.476 Tiempo de respuesta (promedio) 25.6s
#114	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.103 Tiempo de respuesta (promedio) 68.7s
#125	Qwen3.5-35B-A3B medium	Qwen	2	6.2	$0.837	11/22	112.5s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.837 Tiempo de respuesta (promedio) 112.5s
#215	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
Pruebas totales 12 Pruebas incorrectas 6 Costo total $0.020 Tiempo de respuesta (promedio) 39.0s
#140	Mimo V2 Omni medium	Xiaomi	5	5.9	$0.683	10/21	41.2s
Pruebas totales 21 Pruebas incorrectas 11 Costo total $0.683 Tiempo de respuesta (promedio) 41.2s
#159	Hy3 preview low	Tencent	4	5.5	$0.015	10/21	24.6s
Pruebas totales 21 Pruebas incorrectas 11 Costo total $0.015 Tiempo de respuesta (promedio) 24.6s
#181	Qwen3.6 Plus Preview medium	Qwen	2	4.9	$0.000	9/19	15.2s
Pruebas totales 19 Pruebas incorrectas 10 Costo total $0.000 Tiempo de respuesta (promedio) 15.2s
#191	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
Pruebas totales 19 Pruebas incorrectas 10 Costo total $0.069 Tiempo de respuesta (promedio) 23.8s
#192	Laguna M.1 medium	Poolside	4	4.7	$0.033	9/19	14.7s
Pruebas totales 19 Pruebas incorrectas 10 Costo total $0.033 Tiempo de respuesta (promedio) 14.7s

Fallos por Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)