Ranking de fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

Fallos totales

1558

Modelo más afectado

Nemotron 3 Nano Omni 30b A3b Reasoning 9

Categorías

En la categoría Específico del dominio412 En la categoría Trucos anti-IA293 En la categoría Programación252 En la categoría Resolución de acertijos201 En la categoría Cultura general168 En la categoría Combinado68 En la categoría Seguimiento de instrucciones61 En la categoría Inteligencia general59 En la categoría Análisis y extracción de datos41 En la categoría Llamada de herramientas3

209/209

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#132	GPT-5.6 Terra none	OpenAI	11	6.0	$0.349	8/22	1.65s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.349 Tiempo de respuesta (promedio) 1.65s
#122	Gemini 3.1 Flash Lite none	Google	11	6.1	$0.046	9/22	1.75s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.046 Tiempo de respuesta (promedio) 1.75s
#120	Gemini 3.1 Flash Lite minimal	Google	8	6.1	$0.047	10/22	1.86s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.047 Tiempo de respuesta (promedio) 1.86s
#174	GPT-4o-mini none	OpenAI	15	5.0	$0.010	5/22	1.99s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.010 Tiempo de respuesta (promedio) 1.99s
#139	GPT-5.4 none	OpenAI	14	5.8	$0.397	7/22	2.07s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.397 Tiempo de respuesta (promedio) 2.07s
#83	GPT-5.6 Sol none	OpenAI	10	6.9	$0.524	11/22	2.16s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.524 Tiempo de respuesta (promedio) 2.16s
#147	Mimo V2 PRO none	Xiaomi	11	5.6	$0.045	7/21	2.27s
Pruebas totales 21 Pruebas incorrectas 14 Costo total $0.045 Tiempo de respuesta (promedio) 2.27s
#87	GPT-5.5 none	OpenAI	11	6.9	$0.544	11/22	2.36s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.544 Tiempo de respuesta (promedio) 2.36s
#157	Mimo V2 Omni none	Xiaomi	10	5.5	$0.021	8/21	2.44s
Pruebas totales 21 Pruebas incorrectas 13 Costo total $0.021 Tiempo de respuesta (promedio) 2.44s
#180	GPT-5.4 Nano none	OpenAI	15	4.8	$0.041	4/22	2.57s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.041 Tiempo de respuesta (promedio) 2.57s
#88	Gemini 3.5 Flash minimal	Google	5	6.8	$0.300	14/22	2.65s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.300 Tiempo de respuesta (promedio) 2.65s
#78	Mercury 2 medium	Inception	8	7.0	$0.093	10/22	2.72s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.093 Tiempo de respuesta (promedio) 2.72s
#200	MiMo-V2-Flash none	Xiaomi	13	4.0	$0.025	4/21	2.76s
Pruebas totales 21 Pruebas incorrectas 17 Costo total $0.025 Tiempo de respuesta (promedio) 2.76s
#170	GLM 5 Turbo none	Z.ai	13	5.1	$0.047	6/21	2.82s
Pruebas totales 21 Pruebas incorrectas 15 Costo total $0.047 Tiempo de respuesta (promedio) 2.82s
#192	Laguna M.1 none	Poolside	10	4.4	$0.009	4/19	2.89s
Pruebas totales 19 Pruebas incorrectas 15 Costo total $0.009 Tiempo de respuesta (promedio) 2.89s

Fallos por Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)