Ranking de Específico del dominio x Tiempo agotado

Mira qué modelos de IA tienen más probabilidades de caer en Tiempo agotado dentro de Específico del dominio, para detectar puntos débiles más rápido. Ordenar por: Cantidad de fallos ↑.

Modelos mostrados

Fallos totales

Modelo más afectado

Claude Opus 4.7 1

Motivos de fallo

Respuesta incorrecta412 Tiempo agotado43 Formato extra17 Sin respuesta8 Error de API7 No siguió las instrucciones1

Categorías

Específico del dominio43 Programación26 Combinado5 Resolución de acertijos5 Inteligencia general4 Trucos anti-IA4 Análisis y extracción de datos1 Seguimiento de instrucciones1

32/32

Rango	Modelo	Empresa	Cantidad de Tiempo agotado	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#15	Claude Opus 4.7 medium	Anthropic	1	7.7	$1.477	2/3	1.17s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $1.477 Tiempo de respuesta (promedio) 1.17s
#21	GPT-5.2 medium	OpenAI	1	5.9	$0.951	1/3	77.8s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.951 Tiempo de respuesta (promedio) 77.8s
#26	GPT-5 Mini medium	OpenAI	1	3.6	$0.237	0/3	44.6s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.237 Tiempo de respuesta (promedio) 44.6s
#31	GLM 5.2 high	Z.ai	1	3.7	$0.970	0/3	74.0s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.970 Tiempo de respuesta (promedio) 74.0s
#38	GLM 5.2 medium	Z.ai	1	4.1	$0.222	0/3	45.5s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.222 Tiempo de respuesta (promedio) 45.5s
#40	Claude Sonnet 4.6 medium	Anthropic	1	2.9	$2.057	0/3	0ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $2.057 Tiempo de respuesta (promedio) 0ms
#42	GLM 5 medium	Z.ai	1	3.5	$0.307	0/3	0ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.307 Tiempo de respuesta (promedio) 0ms
#49	GLM 5 Turbo medium	Z.ai	1	2.9	$0.323	0/3	71.1s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.323 Tiempo de respuesta (promedio) 71.1s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	5.3	$0.437	1/3	17.5s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.437 Tiempo de respuesta (promedio) 17.5s
#58	Qwen3.5-27B medium	Qwen	1	5.3	$1.627	1/3	79.5s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $1.627 Tiempo de respuesta (promedio) 79.5s
#60	LongCat 2.0 medium	Meituan	1	2.9	$0.478	0/3	339.9s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.478 Tiempo de respuesta (promedio) 339.9s
#74	GLM 5.1 medium	Z.ai	1	5.3	$0.535	1/3	29.8s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.535 Tiempo de respuesta (promedio) 29.8s
#76	DeepSeek V3.2 medium	DeepSeek	1	2.9	$0.078	0/3	24.3s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.078 Tiempo de respuesta (promedio) 24.3s
#77	Kimi K2.5 medium	Moonshot AI	1	3.5	$0.600	0/3	137.3s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.600 Tiempo de respuesta (promedio) 137.3s
#91	LongCat 2.0 low	Meituan	1	3.0	$0.391	0/3	86.1s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.391 Tiempo de respuesta (promedio) 86.1s

Filtrar modelos

Mejores modelos por Cantidad de Tiempo agotado

Cantidad de Tiempo agotado vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Específico del dominio: Tiempo agotado

Filtrar modelos

Mejores modelos por Cantidad de Tiempo agotado

Cantidad de Tiempo agotado vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado