Ranking de fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Pruebas correctas ↑.

Modelos mostrados

Fallos totales

1585

Modelo más afectado

Granite 4.1 8B 13

Categorías

En la categoría Específico del dominio421 En la categoría Trucos anti-IA293 En la categoría Programación259 En la categoría Resolución de acertijos204 En la categoría Cultura general172 En la categoría Combinado69 En la categoría Inteligencia general62 En la categoría Seguimiento de instrucciones61 En la categoría Análisis y extracción de datos41 En la categoría Llamada de herramientas3

215/215

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#112	Gemini 3.1 Flash Lite Preview none	Google	7	6.4	$0.052	12/22	1.58s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.052 Tiempo de respuesta (promedio) 1.58s
#120	Qwen3.5-Flash medium	Qwen	4	6.2	$0.139	12/22	84.8s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.139 Tiempo de respuesta (promedio) 84.8s
#149	Gemini 3.1 Flash Lite high	Google	4	5.6	$2.044	10/18	62.0s
Pruebas totales 18 Pruebas incorrectas 8 Costo total $2.044 Tiempo de respuesta (promedio) 62.0s
#115	Mimo V2 PRO medium	Xiaomi	5	6.3	$0.333	12/21	22.2s
Pruebas totales 21 Pruebas incorrectas 9 Costo total $0.333 Tiempo de respuesta (promedio) 22.2s
#119	MiMo-V2-Flash medium	Xiaomi	5	6.3	$0.043	12/21	20.1s
Pruebas totales 21 Pruebas incorrectas 9 Costo total $0.043 Tiempo de respuesta (promedio) 20.1s
#27	Muse Spark 1.1 low	Meta	6	8.3	$0.647	13/22	11.5s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.647 Tiempo de respuesta (promedio) 11.5s
#47	Claude Opus 4.6 medium	Anthropic	3	7.7	$3.059	13/22	34.3s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $3.059 Tiempo de respuesta (promedio) 34.3s
#49	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.041	13/22	49.7s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.041 Tiempo de respuesta (promedio) 49.7s
#55	Nemotron 3 Ultra medium	NVIDIA	7	7.5	$0.774	13/22	32.2s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.774 Tiempo de respuesta (promedio) 32.2s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.571 Tiempo de respuesta (promedio) 6.88s
#59	GPT-5.6 Terra low	OpenAI	8	7.5	$0.519	13/22	5.31s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.519 Tiempo de respuesta (promedio) 5.31s
#62	Qwen3.5-27B medium	Qwen	4	7.4	$1.627	13/22	111.9s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $1.627 Tiempo de respuesta (promedio) 111.9s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7	7.3	$0.115	13/22	4.61s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.115 Tiempo de respuesta (promedio) 4.61s
#69	Gemini 3.1 Flash Lite medium	Google	7	7.3	$0.117	13/22	4.27s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.117 Tiempo de respuesta (promedio) 4.27s
#70	Claude Opus 4.8 none	Anthropic	4	7.3	$1.166	13/22	4.91s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $1.166 Tiempo de respuesta (promedio) 4.91s

←

1 9 10 11 15

→

Fallos por Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)