Ranking de Resolución de acertijos x Error de API

Mira qué modelos de IA tienen más probabilidades de caer en Error de API dentro de Resolución de acertijos, para detectar puntos débiles más rápido. Ordenar por: Pruebas correctas ↑.

Modelos mostrados

Fallos totales

Modelo más afectado

Laguna M.1 1

Motivos de fallo

Respuesta incorrecta201 No siguió las instrucciones90 Error de API12 Formato extra8 Tiempo agotado5 Sin respuesta3

Categorías

Programación45 Combinado26 Llamada de herramientas17 Análisis y extracción de datos14 Trucos anti-IA14 Cultura general13 Inteligencia general12 Resolución de acertijos12 Específico del dominio7 Seguimiento de instrucciones1

11/11

Rango	Modelo	Empresa	Cantidad de Error de API	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#192	Laguna M.1 none	Poolside	1	3.0	$0.009	0/3	891ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.009 Tiempo de respuesta (promedio) 891ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	2.9	$0.000	0/3	1.40s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.000 Tiempo de respuesta (promedio) 1.40s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/3	532ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.000 Tiempo de respuesta (promedio) 532ms
#210	LFM2-24B-A2B none	Liquid	1	3.8	$0.001	0/3	1.78s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.001 Tiempo de respuesta (promedio) 1.78s
#153	Hy3 preview low	Tencent	1	5.3	$0.015	1/3	7.51s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.015 Tiempo de respuesta (promedio) 7.51s
#175	Qwen3.6 Plus Preview medium	Qwen	2	5.3	$0.000	1/3	7.52s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.000 Tiempo de respuesta (promedio) 7.52s
#186	Laguna M.1 medium	Poolside	1	5.3	$0.033	1/3	10.2s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.033 Tiempo de respuesta (promedio) 10.2s
#198	Laguna Xs.2 medium	Poolside	1	5.3	$0.015	1/3	1.93s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.015 Tiempo de respuesta (promedio) 1.93s
#205	Laguna Xs.2 none	Poolside	1	5.3	$0.004	1/3	650ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.004 Tiempo de respuesta (promedio) 650ms
#135	Hy3 preview high	Tencent	1	7.7	$0.048	2/3	27.9s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.048 Tiempo de respuesta (promedio) 27.9s
#173	DeepSeek V3.2 none	DeepSeek	1	7.6	$0.054	2/3	6.91s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.054 Tiempo de respuesta (promedio) 6.91s

Filtrar modelos

Mejores modelos por Cantidad de Error de API

Cantidad de Error de API vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Resolución de acertijos: Error de API

Filtrar modelos

Mejores modelos por Cantidad de Error de API

Cantidad de Error de API vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado