Ranking de fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Puntuación ↑.

Modelos mostrados

Fallos totales

1585

Modelo más afectado

LFM2-24B-A2B 9

Categorías

En la categoría Específico del dominio421 En la categoría Trucos anti-IA293 En la categoría Programación259 En la categoría Resolución de acertijos204 En la categoría Cultura general172 En la categoría Combinado69 En la categoría Inteligencia general62 En la categoría Seguimiento de instrucciones61 En la categoría Análisis y extracción de datos41 En la categoría Llamada de herramientas3

215/215

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#126	Gemini 3.1 Flash Lite minimal	Google	8	6.1	$0.047	10/22	1.86s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.047 Tiempo de respuesta (promedio) 1.86s
#124	Gemini 2.5 Flash none	Google	12	6.2	$0.017	9/22	6.20s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.017 Tiempo de respuesta (promedio) 6.20s
#125	Qwen3.5-35B-A3B medium	Qwen	2	6.2	$0.837	11/22	112.5s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.837 Tiempo de respuesta (promedio) 112.5s
#123	GPT-5.6 Luna low	OpenAI	10	6.2	$0.249	10/22	5.04s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.249 Tiempo de respuesta (promedio) 5.04s
#122	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.066 Tiempo de respuesta (promedio) 4.40s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.021 Tiempo de respuesta (promedio) 5.34s
#120	Qwen3.5-Flash medium	Qwen	4	6.2	$0.139	12/22	84.8s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.139 Tiempo de respuesta (promedio) 84.8s
#119	MiMo-V2-Flash medium	Xiaomi	5	6.3	$0.043	12/21	20.1s
Pruebas totales 21 Pruebas incorrectas 9 Costo total $0.043 Tiempo de respuesta (promedio) 20.1s
#118	Claude Sonnet 5 none	Anthropic	7	6.3	$0.548	8/22	6.04s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.548 Tiempo de respuesta (promedio) 6.04s
#117	LongCat 2.0 none	Meituan	14	6.3	$0.044	7/22	5.18s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.044 Tiempo de respuesta (promedio) 5.18s
#116	Gemma 4 31B medium	Google	2	6.3	$0.107	14/22	75.4s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.107 Tiempo de respuesta (promedio) 75.4s
#115	Mimo V2 PRO medium	Xiaomi	5	6.3	$0.333	12/21	22.2s
Pruebas totales 21 Pruebas incorrectas 9 Costo total $0.333 Tiempo de respuesta (promedio) 22.2s
#114	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.103 Tiempo de respuesta (promedio) 68.7s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	12	6.4	$0.073	10/22	9.85s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.073 Tiempo de respuesta (promedio) 9.85s
#112	Gemini 3.1 Flash Lite Preview none	Google	7	6.4	$0.052	12/22	1.58s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.052 Tiempo de respuesta (promedio) 1.58s

Fallos por Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)