Ranking de Específico del dominio x Tiempo agotado

Mira qué modelos de IA tienen más probabilidades de caer en Tiempo agotado dentro de Específico del dominio, para detectar puntos débiles más rápido. Ordenar por: Tiempo de respuesta (promedio) ↓.

Modelos mostrados

Fallos totales

Modelo más afectado

Kimi K3 2

Motivos de fallo

Respuesta incorrecta412 Tiempo agotado43 Formato extra17 Sin respuesta8 Error de API7 No siguió las instrucciones1

Categorías

Específico del dominio43 Programación26 Combinado5 Resolución de acertijos5 Inteligencia general4 Trucos anti-IA4 Análisis y extracción de datos1 Seguimiento de instrucciones1

32/32

Rango	Modelo	Empresa	Cantidad de Tiempo agotado	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#33	Kimi K3 max	Moonshot AI	2	5.9	$3.112	1/3	490.1s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $3.112 Tiempo de respuesta (promedio) 490.1s
#97	LongCat 2.0 high	Meituan	2	3.6	$0.469	0/3	400.3s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.469 Tiempo de respuesta (promedio) 400.3s
#60	LongCat 2.0 medium	Meituan	1	2.9	$0.478	0/3	339.9s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.478 Tiempo de respuesta (promedio) 339.9s
#190	MiniMax M2.5 medium	Minimax	1	2.9	$0.340	0/3	237.3s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.340 Tiempo de respuesta (promedio) 237.3s
#47	MiniMax M3 medium	Minimax	2	5.5	$0.286	1/3	233.1s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.286 Tiempo de respuesta (promedio) 233.1s
#52	Kimi K2.7 Code medium	Moonshot AI	2	5.5	$0.751	1/3	213.3s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.751 Tiempo de respuesta (promedio) 213.3s
#128	GPT-5 Nano medium	OpenAI	1	5.2	$0.114	1/3	204.0s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.114 Tiempo de respuesta (promedio) 204.0s
#68	Kimi K2.6 medium	Moonshot AI	2	5.3	$1.036	1/3	202.4s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $1.036 Tiempo de respuesta (promedio) 202.4s
#114	Qwen3.5-Flash medium	Qwen	1	5.3	$0.139	1/3	146.5s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.139 Tiempo de respuesta (promedio) 146.5s
#204	Qwen3.5-9B medium	Qwen	3	3.6	$0.036	0/3	137.7s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.036 Tiempo de respuesta (promedio) 137.7s
#77	Kimi K2.5 medium	Moonshot AI	1	3.5	$0.600	0/3	137.3s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.600 Tiempo de respuesta (promedio) 137.3s
#185	Grok 4.1 Fast medium	X AI	1	5.8	$0.069	1/3	121.8s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.069 Tiempo de respuesta (promedio) 121.8s
#119	Qwen3.5-35B-A3B medium	Qwen	2	4.1	$0.837	0/3	88.3s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.837 Tiempo de respuesta (promedio) 88.3s
#91	LongCat 2.0 low	Meituan	1	3.0	$0.391	0/3	86.1s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.391 Tiempo de respuesta (promedio) 86.1s
#58	Qwen3.5-27B medium	Qwen	1	5.3	$1.627	1/3	79.5s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $1.627 Tiempo de respuesta (promedio) 79.5s

Filtrar modelos

Mejores modelos por Cantidad de Tiempo agotado

Cantidad de Tiempo agotado vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Específico del dominio: Tiempo agotado

Filtrar modelos

Mejores modelos por Cantidad de Tiempo agotado

Cantidad de Tiempo agotado vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado