Ranking de Resolución de acertijos x Respuesta incorrecta

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Resolución de acertijos, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

204

Modelo más afectado

Qwen3.5-Flash 3

Motivos de fallo

Respuesta incorrecta204 No siguió las instrucciones90 Error de API12 Formato extra8 Tiempo agotado5 Sin respuesta3

Categorías

Específico del dominio421 Trucos anti-IA293 Programación259 Resolución de acertijos204 Cultura general172 Combinado69 Inteligencia general62 Seguimiento de instrucciones61 Análisis y extracción de datos41 Llamada de herramientas3

145/145

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#101	GLM 5.2 none	Z.ai	1	7.7	$0.128	2/3	3.31s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.128 Tiempo de respuesta (promedio) 3.31s
#104	Gemini 3.5 Flash-Lite medium	Google	1	8.4	$0.369	2/3	1.70s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.369 Tiempo de respuesta (promedio) 1.70s
#105	Qwen3.6 27B medium	Qwen	1	7.7	$0.779	2/3	61.1s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.779 Tiempo de respuesta (promedio) 61.1s
#109	Qwen3.5-27B none	Qwen	1	6.7	$0.090	1/3	1.38s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.090 Tiempo de respuesta (promedio) 1.38s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	1	7.7	$0.073	2/3	2.71s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.073 Tiempo de respuesta (promedio) 2.71s
#114	Ring-2.6-1T medium	Inclusionai	1	5.9	$0.103	1/3	20.7s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.103 Tiempo de respuesta (promedio) 20.7s
#118	Claude Sonnet 5 none	Anthropic	1	6.0	$0.548	1/3	3.22s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.548 Tiempo de respuesta (promedio) 3.22s
#119	MiMo-V2-Flash medium	Xiaomi	1	7.7	$0.043	2/3	3.87s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.043 Tiempo de respuesta (promedio) 3.87s
#121	Gemma 4 31B none	Google	1	6.5	$0.021	1/3	4.23s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.021 Tiempo de respuesta (promedio) 4.23s
#123	GPT-5.6 Luna low	OpenAI	1	7.6	$0.249	2/3	3.59s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.249 Tiempo de respuesta (promedio) 3.59s
#124	Gemini 2.5 Flash none	Google	1	7.7	$0.017	2/3	604ms
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.017 Tiempo de respuesta (promedio) 604ms
#127	gpt-oss-120b medium	OpenAI	1	5.3	$0.019	1/3	21.7s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.019 Tiempo de respuesta (promedio) 21.7s
#128	Gemini 3.1 Flash Lite none	Google	1	6.3	$0.046	1/3	720ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.046 Tiempo de respuesta (promedio) 720ms
#129	Inkling low	Thinkingmachines	1	6.4	$0.187	1/3	2.97s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.187 Tiempo de respuesta (promedio) 2.97s
#134	GPT-5 Nano medium	OpenAI	1	5.3	$0.114	1/3	20.6s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.114 Tiempo de respuesta (promedio) 20.6s

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Resolución de acertijos: Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado