Ranking de fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir.

Modelos mostrados

Fallos totales

1558

Modelo más afectado

Mercury 2 17

Categorías

En la categoría Específico del dominio412 En la categoría Trucos anti-IA293 En la categoría Programación252 En la categoría Resolución de acertijos201 En la categoría Cultura general168 En la categoría Combinado68 En la categoría Seguimiento de instrucciones61 En la categoría Inteligencia general59 En la categoría Análisis y extracción de datos41 En la categoría Llamada de herramientas3

209/209

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#124	Qwen3.6 Flash none	Qwen	12	6.1	$0.062	7/22	3.74s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.062 Tiempo de respuesta (promedio) 3.74s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	12	6.1	$0.122	8/22	13.6s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.122 Tiempo de respuesta (promedio) 13.6s
#127	Qwen3.5-35B-A3B none	Qwen	12	6.1	$0.106	7/22	12.7s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.106 Tiempo de respuesta (promedio) 12.7s
#129	Nemotron 3 Ultra none	NVIDIA	12	6.1	$0.095	8/22	3.87s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.095 Tiempo de respuesta (promedio) 3.87s
#141	GLM 5 none	Z.ai	12	5.7	$0.041	9/21	4.03s
Pruebas totales 21 Pruebas incorrectas 12 Costo total $0.041 Tiempo de respuesta (promedio) 4.03s
#150	DeepSeek V4 Flash none	DeepSeek	12	5.6	$0.044	5/22	36.8s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.044 Tiempo de respuesta (promedio) 36.8s
#162	Ling-2.6-1T none	Inclusionai	12	5.3	$0.016	4/22	8.58s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.016 Tiempo de respuesta (promedio) 8.58s
#167	Mistral Small 4 medium	Mistral	12	5.1	$0.096	5/22	10.8s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.096 Tiempo de respuesta (promedio) 10.8s
#171	North Mini Code none	Cohere	12	5.1	$0.000	4/22	29.9s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.000 Tiempo de respuesta (promedio) 29.9s
#183	Trinity Large Preview none	Arcee AI	12	4.8	$0.008	4/21	2.98s
Pruebas totales 21 Pruebas incorrectas 17 Costo total $0.008 Tiempo de respuesta (promedio) 2.98s
#87	GPT-5.5 none	OpenAI	11	6.9	$0.544	11/22	2.36s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.544 Tiempo de respuesta (promedio) 2.36s
#102	Laguna XS 2.1 medium	Poolside	11	6.5	$0.068	9/22	47.9s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.068 Tiempo de respuesta (promedio) 47.9s
#122	Gemini 3.1 Flash Lite none	Google	11	6.1	$0.046	9/22	1.75s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.046 Tiempo de respuesta (promedio) 1.75s
#132	GPT-5.6 Terra none	OpenAI	11	6.0	$0.349	8/22	1.65s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.349 Tiempo de respuesta (promedio) 1.65s
#138	Kimi K2.6 none	Moonshot AI	11	5.8	$0.184	7/22	19.6s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.184 Tiempo de respuesta (promedio) 19.6s

Fallos por Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)