Ranking de fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir.

Modelos mostrados

Fallos totales

1523

Modelo más afectado

Mercury 2 17

Categorías

En la categoría Específico del dominio404 En la categoría Trucos anti-IA290 En la categoría Programación249 En la categoría Resolución de acertijos193 En la categoría Cultura general165 En la categoría Combinado67 En la categoría Seguimiento de instrucciones57 En la categoría Inteligencia general55 En la categoría Análisis y extracción de datos40 En la categoría Llamada de herramientas3

205/205

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#185	Mercury 2 none	Inception	17	4.6	$0.030	4/22	829ms
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.030 Tiempo de respuesta (promedio) 829ms
#161	Mistral Small 4 none	Mistral	16	5.1	$0.022	5/22	1.20s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.022 Tiempo de respuesta (promedio) 1.20s
#151	Kimi K2.5 none	Moonshot AI	15	5.5	$0.127	6/22	19.2s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.127 Tiempo de respuesta (promedio) 19.2s
#170	GPT-4o-mini none	OpenAI	15	5.0	$0.010	5/22	1.99s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.010 Tiempo de respuesta (promedio) 1.99s
#173	Nemotron 3 Super none	NVIDIA	15	4.9	$0.017	5/22	5.97s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.017 Tiempo de respuesta (promedio) 5.97s
#176	GPT-5.4 Nano none	OpenAI	15	4.8	$0.041	4/22	2.57s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.041 Tiempo de respuesta (promedio) 2.57s
#135	GPT-5.4 none	OpenAI	14	5.8	$0.397	7/22	2.07s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.397 Tiempo de respuesta (promedio) 2.07s
#155	GPT-5.6 Luna none	OpenAI	14	5.4	$0.142	6/22	1.50s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.142 Tiempo de respuesta (promedio) 1.50s
#156	Laguna XS 2.1 none	Poolside	14	5.3	$0.008	5/22	1.55s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.008 Tiempo de respuesta (promedio) 1.55s
#162	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.025 Tiempo de respuesta (promedio) 9.12s
#164	MiMo-V2.5 none	Xiaomi	14	5.1	$0.025	5/22	4.62s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.025 Tiempo de respuesta (promedio) 4.62s
#165	Qwen3.5-9B none	Qwen	14	5.1	$0.021	4/22	19.2s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.021 Tiempo de respuesta (promedio) 19.2s
#112	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.066 Tiempo de respuesta (promedio) 4.40s
#121	Qwen3.5-Flash none	Qwen	13	6.1	$0.073	8/22	25.3s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.073 Tiempo de respuesta (promedio) 25.3s
#132	GPT-5.4 Mini none	OpenAI	13	5.9	$0.095	6/22	1.53s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.095 Tiempo de respuesta (promedio) 1.53s

Fallos por Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)