Ranking de Específico del dominio x Tiempo agotado

Mira qué modelos de IA tienen más probabilidades de caer en Tiempo agotado dentro de Específico del dominio, para detectar puntos débiles más rápido. Ordenar por: Pruebas correctas ↑.

Modelos mostrados

Fallos totales

Modelo más afectado

GPT-5 Mini 1

Motivos de fallo

Respuesta incorrecta412 Tiempo agotado43 Formato extra17 Sin respuesta8 Error de API7 No siguió las instrucciones1

Categorías

Específico del dominio43 Programación26 Combinado5 Resolución de acertijos5 Inteligencia general4 Trucos anti-IA4 Análisis y extracción de datos1 Seguimiento de instrucciones1

32/32

Rango	Modelo	Empresa	Cantidad de Tiempo agotado	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#26	GPT-5 Mini medium	OpenAI	1	3.6	$0.237	0/3	44.6s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.237 Tiempo de respuesta (promedio) 44.6s
#31	GLM 5.2 high	Z.ai	1	3.7	$0.970	0/3	74.0s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.970 Tiempo de respuesta (promedio) 74.0s
#38	GLM 5.2 medium	Z.ai	1	4.1	$0.222	0/3	45.5s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.222 Tiempo de respuesta (promedio) 45.5s
#40	Claude Sonnet 4.6 medium	Anthropic	1	2.9	$2.057	0/3	0ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $2.057 Tiempo de respuesta (promedio) 0ms
#42	GLM 5 medium	Z.ai	1	3.5	$0.307	0/3	0ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.307 Tiempo de respuesta (promedio) 0ms
#49	GLM 5 Turbo medium	Z.ai	1	2.9	$0.323	0/3	71.1s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.323 Tiempo de respuesta (promedio) 71.1s
#60	LongCat 2.0 medium	Meituan	1	2.9	$0.478	0/3	339.9s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.478 Tiempo de respuesta (promedio) 339.9s
#76	DeepSeek V3.2 medium	DeepSeek	1	2.9	$0.078	0/3	24.3s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.078 Tiempo de respuesta (promedio) 24.3s
#77	Kimi K2.5 medium	Moonshot AI	1	3.5	$0.600	0/3	137.3s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.600 Tiempo de respuesta (promedio) 137.3s
#80	Seed-2.0-Mini medium	Bytedance Seed	3	3.0	$0.101	0/3	0ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.101 Tiempo de respuesta (promedio) 0ms
#91	LongCat 2.0 low	Meituan	1	3.0	$0.391	0/3	86.1s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.391 Tiempo de respuesta (promedio) 86.1s
#95	Gemma 4 26B A4B medium	Google	1	2.9	$0.089	0/3	23.6s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.089 Tiempo de respuesta (promedio) 23.6s
#97	LongCat 2.0 high	Meituan	2	3.6	$0.469	0/3	400.3s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.469 Tiempo de respuesta (promedio) 400.3s
#119	Qwen3.5-35B-A3B medium	Qwen	2	4.1	$0.837	0/3	88.3s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.837 Tiempo de respuesta (promedio) 88.3s
#140	Nemotron 3 Super medium	NVIDIA	1	2.9	$0.050	0/3	16.2s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.050 Tiempo de respuesta (promedio) 16.2s

Filtrar modelos

Mejores modelos por Cantidad de Tiempo agotado

Cantidad de Tiempo agotado vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Específico del dominio: Tiempo agotado

Filtrar modelos

Mejores modelos por Cantidad de Tiempo agotado

Cantidad de Tiempo agotado vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado