Ranking de Combinado x Respuesta incorrecta

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Combinado, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

Modelo más afectado

Gemini 3 Flash Preview 2

Motivos de fallo

Llamada de herramienta no válida91 Respuesta incorrecta68 Sin respuesta29 Error de API26 Tiempo agotado5 Formato extra1 No siguió las instrucciones1

Categorías

Específico del dominio412 Trucos anti-IA293 Programación252 Resolución de acertijos201 Cultura general168 Combinado68 Seguimiento de instrucciones61 Inteligencia general59 Análisis y extracción de datos41 Llamada de herramientas3

63/63

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#105	Gemini 3.1 Flash Lite low	Google	1	3.2	$0.621	0/2	161.2s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.621 Tiempo de respuesta (promedio) 161.2s
#106	Gemini 3.1 Flash Lite Preview none	Google	1	3.0	$0.052	0/2	6.23s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.052 Tiempo de respuesta (promedio) 6.23s
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	1	6.5	$0.073	1/2	64.8s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.073 Tiempo de respuesta (promedio) 64.8s
#109	Mimo V2 PRO medium	Xiaomi	1	2.3	$0.333	0/1	64.7s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.333 Tiempo de respuesta (promedio) 64.7s
#111	LongCat 2.0 none	Meituan	1	6.5	$0.044	1/2	28.4s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.044 Tiempo de respuesta (promedio) 28.4s
#115	Gemma 4 31B none	Google	1	3.8	$0.035	0/2	30.0s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.035 Tiempo de respuesta (promedio) 30.0s
#116	Seed-2.0-Lite none	Bytedance Seed	1	3.0	$0.066	0/2	25.6s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.066 Tiempo de respuesta (promedio) 25.6s
#117	GPT-5.6 Luna low	OpenAI	1	2.8	$0.249	0/2	13.7s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.249 Tiempo de respuesta (promedio) 13.7s
#118	Gemini 2.5 Flash none	Google	1	3.0	$0.017	0/2	61.2s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.017 Tiempo de respuesta (promedio) 61.2s
#120	Gemini 3.1 Flash Lite minimal	Google	1	3.0	$0.047	0/2	7.75s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.047 Tiempo de respuesta (promedio) 7.75s
#122	Gemini 3.1 Flash Lite none	Google	1	3.0	$0.046	0/2	9.49s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.046 Tiempo de respuesta (promedio) 9.49s
#125	Qwen3.5-Flash none	Qwen	1	2.9	$0.073	0/2	243.6s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.073 Tiempo de respuesta (promedio) 243.6s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	1	6.4	$0.122	1/2	109.7s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.122 Tiempo de respuesta (promedio) 109.7s
#127	Qwen3.5-35B-A3B none	Qwen	1	3.8	$0.106	0/2	128.3s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.106 Tiempo de respuesta (promedio) 128.3s
#129	Nemotron 3 Ultra none	NVIDIA	1	3.0	$0.095	0/2	21.1s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.095 Tiempo de respuesta (promedio) 21.1s

←

1 2 3 4 5

→

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Combinado: Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado