Ranking de fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Tiempo de respuesta (promedio) ↓.

Modelos mostrados

Fallos totales

1558

Modelo más afectado

Step 3.5 Flash 4

Categorías

En la categoría Específico del dominio412 En la categoría Trucos anti-IA293 En la categoría Programación252 En la categoría Resolución de acertijos201 En la categoría Cultura general168 En la categoría Combinado68 En la categoría Seguimiento de instrucciones61 En la categoría Inteligencia general59 En la categoría Análisis y extracción de datos41 En la categoría Llamada de herramientas3

209/209

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#52	Kimi K2.7 Code medium	Moonshot AI	5	7.5	$0.751	12/22	84.2s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.751 Tiempo de respuesta (promedio) 84.2s
#204	Qwen3.5-9B medium	Qwen	2	3.8	$0.036	3/22	82.2s
Pruebas totales 22 Pruebas incorrectas 19 Costo total $0.036 Tiempo de respuesta (promedio) 82.2s
#46	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.200 Tiempo de respuesta (promedio) 79.1s
#12	Grok 4.5 high	X AI	2	8.9	$1.707	17/22	76.5s
Pruebas totales 22 Pruebas incorrectas 5 Costo total $1.707 Tiempo de respuesta (promedio) 76.5s
#110	Gemma 4 31B medium	Google	2	6.3	$0.163	14/22	75.4s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.163 Tiempo de respuesta (promedio) 75.4s
#47	MiniMax M3 medium	Minimax	3	7.6	$0.286	12/22	75.0s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.286 Tiempo de respuesta (promedio) 75.0s
#108	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.103 Tiempo de respuesta (promedio) 68.7s
#76	DeepSeek V3.2 medium	DeepSeek	5	7.0	$0.078	11/22	68.6s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.078 Tiempo de respuesta (promedio) 68.6s
#190	MiniMax M2.5 medium	Minimax	7	4.6	$0.340	5/22	68.3s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.340 Tiempo de respuesta (promedio) 68.3s
#163	Gemini 3.1 Flash Lite Preview high	Google	2	5.3	$2.310	13/16	68.1s
Pruebas totales 16 Pruebas incorrectas 3 Costo total $2.310 Tiempo de respuesta (promedio) 68.1s
#19	Qwen3.6 Max Preview medium	Qwen	5	8.4	$1.143	16/22	67.5s
Pruebas totales 22 Pruebas incorrectas 6 Costo total $1.143 Tiempo de respuesta (promedio) 67.5s
#86	Step 3.7 Flash high	Stepfun	6	6.9	$1.207	11/22	64.7s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $1.207 Tiempo de respuesta (promedio) 64.7s
#72	Qwen3.5-122B-A10B medium	Qwen	5	7.1	$1.046	14/22	64.2s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $1.046 Tiempo de respuesta (promedio) 64.2s
#28	Inkling high	Thinkingmachines	4	8.0	$1.006	15/22	64.2s
Pruebas totales 22 Pruebas incorrectas 7 Costo total $1.006 Tiempo de respuesta (promedio) 64.2s
#31	GLM 5.2 high	Z.ai	3	8.0	$0.970	14/22	62.7s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.970 Tiempo de respuesta (promedio) 62.7s

Fallos por Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)