Ranking de fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Puntuación ↑.

Modelos mostrados

Fallos totales

1558

Modelo más afectado

LFM2-24B-A2B 9

Categorías

En la categoría Específico del dominio412 En la categoría Trucos anti-IA293 En la categoría Programación252 En la categoría Resolución de acertijos201 En la categoría Cultura general168 En la categoría Combinado68 En la categoría Seguimiento de instrucciones61 En la categoría Inteligencia general59 En la categoría Análisis y extracción de datos41 En la categoría Llamada de herramientas3

209/209

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#210	LFM2-24B-A2B none	Liquid	9	2.2	$0.001	2/16	782ms
Pruebas totales 16 Pruebas incorrectas 14 Costo total $0.001 Tiempo de respuesta (promedio) 782ms
#209	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
Pruebas totales 12 Pruebas incorrectas 6 Costo total $0.020 Tiempo de respuesta (promedio) 39.0s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	9	3.2	$0.000	2/19	728ms
Pruebas totales 19 Pruebas incorrectas 17 Costo total $0.000 Tiempo de respuesta (promedio) 728ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7	3.4	$0.000	4/19	17.1s
Pruebas totales 19 Pruebas incorrectas 15 Costo total $0.000 Tiempo de respuesta (promedio) 17.1s
#206	gpt-oss-120b none	OpenAI	8	3.7	$0.010	6/19	21.6s
Pruebas totales 19 Pruebas incorrectas 13 Costo total $0.010 Tiempo de respuesta (promedio) 21.6s
#205	Laguna Xs.2 none	Poolside	8	3.8	$0.004	5/19	806ms
Pruebas totales 19 Pruebas incorrectas 14 Costo total $0.004 Tiempo de respuesta (promedio) 806ms
#204	Qwen3.5-9B medium	Qwen	2	3.8	$0.036	3/22	82.2s
Pruebas totales 22 Pruebas incorrectas 19 Costo total $0.036 Tiempo de respuesta (promedio) 82.2s
#203	Grok 4.1 Fast none	X AI	13	3.8	$0.008	3/19	1.62s
Pruebas totales 19 Pruebas incorrectas 16 Costo total $0.008 Tiempo de respuesta (promedio) 1.62s
#202	Grok Build 0.1 none	X AI	7	4.0	$0.547	7/19	28.7s
Pruebas totales 19 Pruebas incorrectas 12 Costo total $0.547 Tiempo de respuesta (promedio) 28.7s
#201	Granite 4.1 8B none	IBM Granite	13	4.0	$0.007	2/22	1.45s
Pruebas totales 22 Pruebas incorrectas 20 Costo total $0.007 Tiempo de respuesta (promedio) 1.45s
#200	MiMo-V2-Flash none	Xiaomi	13	4.0	$0.025	4/21	2.76s
Pruebas totales 21 Pruebas incorrectas 17 Costo total $0.025 Tiempo de respuesta (promedio) 2.76s
#199	Hy3 preview none	Tencent	8	4.0	$0.003	4/21	12.9s
Pruebas totales 21 Pruebas incorrectas 17 Costo total $0.003 Tiempo de respuesta (promedio) 12.9s
#198	Laguna Xs.2 medium	Poolside	6	4.1	$0.015	6/19	6.73s
Pruebas totales 19 Pruebas incorrectas 13 Costo total $0.015 Tiempo de respuesta (promedio) 6.73s
#197	Grok 4.20 none	X AI	10	4.1	$0.057	6/18	1.11s
Pruebas totales 18 Pruebas incorrectas 12 Costo total $0.057 Tiempo de respuesta (promedio) 1.11s
#196	Hunter Alpha none	OpenRouter	9	4.2	$0.000	6/18	4.70s
Pruebas totales 18 Pruebas incorrectas 12 Costo total $0.000 Tiempo de respuesta (promedio) 4.70s

Fallos por Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)