Ranking de fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Tiempo de respuesta (promedio) ↓.

Modelos mostrados

Fallos totales

1585

Modelo más afectado

Step 3.5 Flash 4

Categorías

En la categoría Específico del dominio421 En la categoría Trucos anti-IA293 En la categoría Programación259 En la categoría Resolución de acertijos204 En la categoría Cultura general172 En la categoría Combinado69 En la categoría Inteligencia general62 En la categoría Seguimiento de instrucciones61 En la categoría Análisis y extracción de datos41 En la categoría Llamada de herramientas3

215/215

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#98	GLM 5V Turbo medium	Z.ai	7	6.7	$0.457	11/21	23.1s
Pruebas totales 21 Pruebas incorrectas 10 Costo total $0.457 Tiempo de respuesta (promedio) 23.1s
#53	GLM 5 Turbo medium	Z.ai	4	7.6	$0.323	14/21	23.0s
Pruebas totales 21 Pruebas incorrectas 7 Costo total $0.323 Tiempo de respuesta (promedio) 23.0s
#24	GPT-5.2 medium	OpenAI	3	8.4	$0.951	14/22	22.6s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.951 Tiempo de respuesta (promedio) 22.6s
#115	Mimo V2 PRO medium	Xiaomi	5	6.3	$0.333	12/21	22.2s
Pruebas totales 21 Pruebas incorrectas 9 Costo total $0.333 Tiempo de respuesta (promedio) 22.2s
#127	gpt-oss-120b medium	OpenAI	9	6.1	$0.019	9/22	21.9s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.019 Tiempo de respuesta (promedio) 21.9s
#212	gpt-oss-120b none	OpenAI	8	3.7	$0.010	6/19	21.6s
Pruebas totales 19 Pruebas incorrectas 13 Costo total $0.010 Tiempo de respuesta (promedio) 21.6s
#10	Gemini 3.1 Pro Preview medium	Google	2	9.2	$1.361	20/22	21.5s
Pruebas totales 22 Pruebas incorrectas 2 Costo total $1.361 Tiempo de respuesta (promedio) 21.5s
#28	Gemini 2.5 Flash medium	Google	6	8.2	$0.643	15/22	21.2s
Pruebas totales 22 Pruebas incorrectas 7 Costo total $0.643 Tiempo de respuesta (promedio) 21.2s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	10	7.2	$0.482	11/22	20.8s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.482 Tiempo de respuesta (promedio) 20.8s
#71	Step 3.7 Flash low	Stepfun	8	7.3	$0.454	12/22	20.7s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.454 Tiempo de respuesta (promedio) 20.7s
#119	MiMo-V2-Flash medium	Xiaomi	5	6.3	$0.043	12/21	20.1s
Pruebas totales 21 Pruebas incorrectas 9 Costo total $0.043 Tiempo de respuesta (promedio) 20.1s
#144	Kimi K2.6 none	Moonshot AI	11	5.8	$0.184	7/22	19.6s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.184 Tiempo de respuesta (promedio) 19.6s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10	7.4	$0.387	11/22	19.5s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.387 Tiempo de respuesta (promedio) 19.5s
#3	Gemini 3 Flash Preview medium	Google	1	9.6	$0.742	21/22	19.2s
Pruebas totales 22 Pruebas incorrectas 1 Costo total $0.742 Tiempo de respuesta (promedio) 19.2s
#175	Qwen3.5-9B none	Qwen	14	5.1	$0.021	4/22	19.2s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.021 Tiempo de respuesta (promedio) 19.2s

Fallos por Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)