Ranking de Combinado x Respuesta incorrecta

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Combinado, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

Modelo más afectado

Gemini 3 Flash Preview 2

Motivos de fallo

Llamada de herramienta no válida91 Respuesta incorrecta68 Sin respuesta29 Error de API26 Tiempo agotado5 Formato extra1 No siguió las instrucciones1

Categorías

Específico del dominio412 Trucos anti-IA293 Programación252 Resolución de acertijos201 Cultura general168 Combinado68 Seguimiento de instrucciones61 Inteligencia general59 Análisis y extracción de datos41 Llamada de herramientas3

63/63

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#133	Gemini 3 PRO Preview medium	Google	1	1.5	$0.385	0/1	10.4s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.385 Tiempo de respuesta (promedio) 10.4s
#136	GPT-5.4 Mini none	OpenAI	1	6.5	$0.095	1/2	6.22s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.095 Tiempo de respuesta (promedio) 6.22s
#138	Kimi K2.6 none	Moonshot AI	1	3.0	$0.184	0/2	77.8s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.184 Tiempo de respuesta (promedio) 77.8s
#141	GLM 5 none	Z.ai	1	1.5	$0.041	0/1	4.98s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.041 Tiempo de respuesta (promedio) 4.98s
#142	Qwen3.5-122B-A10B none	Qwen	1	5.2	$0.247	0/2	129.3s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.247 Tiempo de respuesta (promedio) 129.3s
#145	GLM 5V Turbo none	Z.ai	1	1.5	$0.052	0/1	6.51s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.052 Tiempo de respuesta (promedio) 6.51s
#146	Owl Alpha medium	Openrouter	1	1.5	$0.000	0/1	10.0s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 10.0s
#147	Mimo V2 PRO none	Xiaomi	1	1.5	$0.045	0/1	6.58s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.045 Tiempo de respuesta (promedio) 6.58s
#148	Owl Alpha none	Openrouter	1	1.5	$0.000	0/1	21.7s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 21.7s
#155	Kimi K2.5 none	Moonshot AI	1	2.8	$0.127	0/2	61.0s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.127 Tiempo de respuesta (promedio) 61.0s
#156	Gemma 4 26B A4B none	Google	1	3.0	$0.015	0/2	37.2s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.015 Tiempo de respuesta (promedio) 37.2s
#157	Mimo V2 Omni none	Xiaomi	1	1.5	$0.021	0/1	5.96s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.021 Tiempo de respuesta (promedio) 5.96s
#159	GPT-5.6 Luna none	OpenAI	1	3.2	$0.142	0/2	6.68s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.142 Tiempo de respuesta (promedio) 6.68s
#160	Laguna XS 2.1 none	Poolside	1	3.0	$0.008	0/2	10.4s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.008 Tiempo de respuesta (promedio) 10.4s
#162	Ling-2.6-1T none	Inclusionai	1	6.5	$0.016	1/2	23.8s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.016 Tiempo de respuesta (promedio) 23.8s

←

1 2 3 4 5

→

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Combinado: Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado