Ranking de fallos por Sin respuesta

Mira qué modelos de IA se encuentran con Sin respuesta con más frecuencia para detectar riesgos de fiabilidad antes de elegir.

Modelos mostrados

Fallos totales

Modelo más afectado

Step 3.7 Flash 4

Categorías

En la categoría Combinado29 En la categoría Programación18 En la categoría Cultura general12 En la categoría Específico del dominio8 En la categoría Análisis y extracción de datos5 En la categoría Trucos anti-IA4 En la categoría Resolución de acertijos3 En la categoría Llamada de herramientas2 En la categoría Seguimiento de instrucciones2

64/64

Rango	Modelo	Empresa	Cantidad de Sin respuesta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#85	Step 3.7 Flash high	Stepfun	4	6.9	$1.207	11/22	64.7s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $1.207 Tiempo de respuesta (promedio) 64.7s
#96	Qwen3.6 27B medium	Qwen	3	6.5	$0.779	10/22	106.3s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.779 Tiempo de respuesta (promedio) 106.3s
#190	GLM 4.7 Flash medium	Z.ai	3	4.3	$0.166	4/22	142.6s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.166 Tiempo de respuesta (promedio) 142.6s
#12	Grok 4.5 high	X AI	2	8.9	$1.707	17/22	76.5s
Pruebas totales 22 Pruebas incorrectas 5 Costo total $1.707 Tiempo de respuesta (promedio) 76.5s
#17	Claude Fable 5 medium	Anthropic	2	8.6	$3.478	17/22	17.2s
Pruebas totales 22 Pruebas incorrectas 5 Costo total $3.478 Tiempo de respuesta (promedio) 17.2s
#38	GLM 5.2 medium	Z.ai	2	7.8	$0.068	15/21	23.3s
Pruebas totales 21 Pruebas incorrectas 6 Costo total $0.068 Tiempo de respuesta (promedio) 23.3s
#76	Kimi K2.5 medium	Moonshot AI	2	7.0	$0.600	10/22	99.0s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.600 Tiempo de respuesta (promedio) 99.0s
#93	Gemma 4 26B A4B medium	Google	2	6.6	$0.082	14/22	103.8s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.082 Tiempo de respuesta (promedio) 103.8s
#108	Claude Sonnet 5 none	Anthropic	2	6.3	$0.548	8/22	6.04s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.548 Tiempo de respuesta (promedio) 6.04s
#115	Qwen3.5-35B-A3B medium	Qwen	2	6.2	$0.837	11/22	112.5s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.837 Tiempo de respuesta (promedio) 112.5s
#130	Mimo V2 Omni medium	Xiaomi	2	5.9	$0.683	10/21	41.2s
Pruebas totales 21 Pruebas incorrectas 11 Costo total $0.683 Tiempo de respuesta (promedio) 41.2s
#168	MiniMax M2.7 medium	Minimax	2	5.0	$0.163	5/22	41.3s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.163 Tiempo de respuesta (promedio) 41.3s
#186	MiniMax M2.5 medium	Minimax	2	4.6	$0.340	5/22	68.3s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.340 Tiempo de respuesta (promedio) 68.3s
#194	Laguna Xs.2 medium	Poolside	2	4.1	$0.015	6/19	6.73s
Pruebas totales 19 Pruebas incorrectas 13 Costo total $0.015 Tiempo de respuesta (promedio) 6.73s
#200	Qwen3.5-9B medium	Qwen	2	3.8	$0.036	3/22	82.2s
Pruebas totales 22 Pruebas incorrectas 19 Costo total $0.036 Tiempo de respuesta (promedio) 82.2s

1 2 3 4 5

→

Fallos por Sin respuesta

Filtrar modelos

Mejores modelos por Cantidad de Sin respuesta

Cantidad de Sin respuesta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)