Ranking de Combinado x Respuesta incorrecta

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Combinado, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

Modelo más afectado

Gemini 3 Flash Preview 2

Motivos de fallo

Llamada de herramienta no válida91 Respuesta incorrecta68 Sin respuesta29 Error de API26 Tiempo agotado5 Formato extra1 No siguió las instrucciones1

Categorías

Específico del dominio412 Trucos anti-IA293 Programación252 Resolución de acertijos201 Cultura general168 Combinado68 Seguimiento de instrucciones61 Inteligencia general59 Análisis y extracción de datos41 Llamada de herramientas3

63/63

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#164	Inkling none	Thinkingmachines	1	2.9	$0.147	0/2	25.7s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.147 Tiempo de respuesta (promedio) 25.7s
#166	Qwen3 Coder Next none	Qwen	1	3.0	$0.025	0/2	30.9s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.025 Tiempo de respuesta (promedio) 30.9s
#167	Mistral Small 4 medium	Mistral	1	3.0	$0.096	0/2	32.4s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.096 Tiempo de respuesta (promedio) 32.4s
#168	MiMo-V2.5 none	Xiaomi	1	3.0	$0.025	0/2	28.9s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.025 Tiempo de respuesta (promedio) 28.9s
#170	GLM 5 Turbo none	Z.ai	1	1.5	$0.047	0/1	4.89s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.047 Tiempo de respuesta (promedio) 4.89s
#174	GPT-4o-mini none	OpenAI	1	3.0	$0.010	0/2	6.32s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.010 Tiempo de respuesta (promedio) 6.32s
#180	GPT-5.4 Nano none	OpenAI	1	3.0	$0.041	0/2	14.7s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.041 Tiempo de respuesta (promedio) 14.7s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	1	3.8	$0.067	0/2	73.0s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.067 Tiempo de respuesta (promedio) 73.0s
#183	Trinity Large Preview none	Arcee AI	1	1.5	$0.008	0/1	8.91s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.008 Tiempo de respuesta (promedio) 8.91s
#187	Qwen3 Coder Next medium	Qwen	1	3.0	$0.032	0/2	14.6s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.032 Tiempo de respuesta (promedio) 14.6s
#193	Elephant Alpha none	Openrouter	1	1.5	$0.000	0/1	3.81s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 3.81s
#195	Elephant Alpha medium	Openrouter	1	1.5	$0.000	0/1	3.70s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 3.70s
#196	Hunter Alpha none	OpenRouter	1	1.5	$0.000	0/1	15.2s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 15.2s
#198	Laguna Xs.2 medium	Poolside	1	1.5	$0.015	0/1	15.9s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.015 Tiempo de respuesta (promedio) 15.9s
#199	Hy3 preview none	Tencent	1	1.5	$0.003	0/1	35.8s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.003 Tiempo de respuesta (promedio) 35.8s

←

1 2 3 4 5

→

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Combinado: Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado