Ranking de fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Cantidad de fallos ↑.

Modelos mostrados

Fallos totales

1585

Modelo más afectado

Gemini 3.6 Flash 1

Categorías

En la categoría Específico del dominio421 En la categoría Trucos anti-IA293 En la categoría Programación259 En la categoría Resolución de acertijos204 En la categoría Cultura general172 En la categoría Combinado69 En la categoría Inteligencia general62 En la categoría Seguimiento de instrucciones61 En la categoría Análisis y extracción de datos41 En la categoría Llamada de herramientas3

215/215

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#191	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
Pruebas totales 19 Pruebas incorrectas 10 Costo total $0.069 Tiempo de respuesta (promedio) 23.8s
#192	Laguna M.1 medium	Poolside	4	4.7	$0.033	9/19	14.7s
Pruebas totales 19 Pruebas incorrectas 10 Costo total $0.033 Tiempo de respuesta (promedio) 14.7s
#21	GPT-5.4 medium	OpenAI	5	8.5	$1.533	15/22	23.1s
Pruebas totales 22 Pruebas incorrectas 7 Costo total $1.533 Tiempo de respuesta (promedio) 23.1s
#22	Qwen3.6 Max Preview medium	Qwen	5	8.4	$1.143	16/22	67.5s
Pruebas totales 22 Pruebas incorrectas 6 Costo total $1.143 Tiempo de respuesta (promedio) 67.5s
#29	GPT-5 Mini medium	OpenAI	5	8.1	$0.237	12/22	27.6s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.237 Tiempo de respuesta (promedio) 27.6s
#33	Step 3.7 Flash medium	Stepfun	5	8.0	$0.515	14/22	26.4s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.515 Tiempo de respuesta (promedio) 26.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	5	7.9	$0.234	14/22	48.5s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.234 Tiempo de respuesta (promedio) 48.5s
#40	Qwen3.7 Plus medium	Qwen	5	7.9	$0.267	15/22	51.5s
Pruebas totales 22 Pruebas incorrectas 7 Costo total $0.267 Tiempo de respuesta (promedio) 51.5s
#41	Qwen3.6 Plus medium	Qwen	5	7.8	$0.405	15/22	43.1s
Pruebas totales 22 Pruebas incorrectas 7 Costo total $0.405 Tiempo de respuesta (promedio) 43.1s
#52	Grok Build 0.1 medium	X AI	5	7.6	$1.097	14/22	52.1s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $1.097 Tiempo de respuesta (promedio) 52.1s
#56	Kimi K2.7 Code medium	Moonshot AI	5	7.5	$0.740	12/22	84.2s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.740 Tiempo de respuesta (promedio) 84.2s
#67	Claude Sonnet 4.6 none	Anthropic	5	7.3	$0.661	12/22	8.12s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.661 Tiempo de respuesta (promedio) 8.12s
#76	Qwen3.5-122B-A10B medium	Qwen	5	7.1	$1.046	14/22	64.2s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $1.046 Tiempo de respuesta (promedio) 64.2s
#77	Grok 4.3 medium	X AI	5	7.1	$0.779	13/22	47.4s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.779 Tiempo de respuesta (promedio) 47.4s
#80	DeepSeek V3.2 medium	DeepSeek	5	7.0	$0.078	11/22	68.6s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.078 Tiempo de respuesta (promedio) 68.6s

Fallos por Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)