Ranking de Resolución de acertijos x Formato extra

Mira qué modelos de IA tienen más probabilidades de caer en Formato extra dentro de Resolución de acertijos, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

Modelo más afectado

Motivos de fallo

Respuesta incorrecta201 No siguió las instrucciones90 Error de API12 Formato extra8 Tiempo agotado5 Sin respuesta3

Categorías

Trucos anti-IA20 Programación18 Específico del dominio17 Resolución de acertijos8 Análisis y extracción de datos6 Seguimiento de instrucciones3 Combinado1

8/8

Rango	Modelo	Empresa	Cantidad de Formato extra	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#63	Claude Sonnet 4.6 none	Anthropic	1	7.7	$0.661	2/3	2.53s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.661 Tiempo de respuesta (promedio) 2.53s
#66	Claude Opus 4.8 none	Anthropic	1	7.7	$1.166	2/3	2.74s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $1.166 Tiempo de respuesta (promedio) 2.74s
#109	Mimo V2 PRO medium	Xiaomi	1	6.4	$0.333	1/3	5.08s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.333 Tiempo de respuesta (promedio) 5.08s
#111	LongCat 2.0 none	Meituan	1	4.0	$0.044	0/3	2.74s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.044 Tiempo de respuesta (promedio) 2.74s
#112	Claude Sonnet 5 none	Anthropic	1	6.0	$0.548	1/3	3.22s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.548 Tiempo de respuesta (promedio) 3.22s
#150	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.044 Tiempo de respuesta (promedio) 23.7s
#159	GPT-5.6 Luna none	OpenAI	1	5.3	$0.142	1/3	790ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.142 Tiempo de respuesta (promedio) 790ms
#164	Inkling none	Thinkingmachines	1	5.6	$0.147	1/3	931ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.147 Tiempo de respuesta (promedio) 931ms

Filtrar modelos