Ranking de fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Puntuación ↑.

Modelos mostrados

Fallos totales

1558

Modelo más afectado

LFM2-24B-A2B 9

Categorías

En la categoría Específico del dominio412 En la categoría Trucos anti-IA293 En la categoría Programación252 En la categoría Resolución de acertijos201 En la categoría Cultura general168 En la categoría Combinado68 En la categoría Seguimiento de instrucciones61 En la categoría Inteligencia general59 En la categoría Análisis y extracción de datos41 En la categoría Llamada de herramientas3

209/209

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#195	Elephant Alpha medium	Openrouter	9	4.3	$0.000	6/21	1.27s
Pruebas totales 21 Pruebas incorrectas 15 Costo total $0.000 Tiempo de respuesta (promedio) 1.27s
#194	GLM 4.7 Flash medium	Z.ai	9	4.3	$0.166	4/22	142.6s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.166 Tiempo de respuesta (promedio) 142.6s
#193	Elephant Alpha none	Openrouter	9	4.3	$0.000	5/21	1.22s
Pruebas totales 21 Pruebas incorrectas 16 Costo total $0.000 Tiempo de respuesta (promedio) 1.22s
#192	Laguna M.1 none	Poolside	10	4.4	$0.009	4/19	2.89s
Pruebas totales 19 Pruebas incorrectas 15 Costo total $0.009 Tiempo de respuesta (promedio) 2.89s
#191	Grok 4.20 Beta none	X AI	10	4.4	$0.087	6/18	1.19s
Pruebas totales 18 Pruebas incorrectas 12 Costo total $0.087 Tiempo de respuesta (promedio) 1.19s
#190	MiniMax M2.5 medium	Minimax	7	4.6	$0.340	5/22	68.3s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.340 Tiempo de respuesta (promedio) 68.3s
#189	Mercury 2 none	Inception	17	4.6	$0.030	4/22	829ms
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.030 Tiempo de respuesta (promedio) 829ms
#188	Cobuddy medium	Baidu	9	4.7	$0.000	7/21	39.9s
Pruebas totales 21 Pruebas incorrectas 14 Costo total $0.000 Tiempo de respuesta (promedio) 39.9s
#187	Qwen3 Coder Next medium	Qwen	13	4.7	$0.032	4/22	9.61s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.032 Tiempo de respuesta (promedio) 9.61s
#186	Laguna M.1 medium	Poolside	4	4.7	$0.033	9/19	14.7s
Pruebas totales 19 Pruebas incorrectas 10 Costo total $0.033 Tiempo de respuesta (promedio) 14.7s
#185	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
Pruebas totales 19 Pruebas incorrectas 10 Costo total $0.069 Tiempo de respuesta (promedio) 23.8s
#184	Hunter Alpha medium	OpenRouter	4	4.7	$0.000	8/18	10.3s
Pruebas totales 18 Pruebas incorrectas 10 Costo total $0.000 Tiempo de respuesta (promedio) 10.3s
#183	Trinity Large Preview none	Arcee AI	12	4.8	$0.008	4/21	2.98s
Pruebas totales 21 Pruebas incorrectas 17 Costo total $0.008 Tiempo de respuesta (promedio) 2.98s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	13	4.8	$0.067	5/22	12.2s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.067 Tiempo de respuesta (promedio) 12.2s
#181	Grok 4.20 Multi Agent Beta medium	X AI	4	4.8	$5.599	8/18	9.69s
Pruebas totales 18 Pruebas incorrectas 10 Costo total $5.599 Tiempo de respuesta (promedio) 9.69s

Fallos por Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)