Ranking de modelos de Combinado

Mira qué modelos de IA rinden mejor en Combinado, cuáles se mantienen fiables y dónde aparecen las mayores diferencias.

Modelos mostrados

Promedio de Puntuación de Combinado

5.5

Mejor modelo

Motivos de fallo

Con motivo de fallo Llamada de herramienta no válida91 Con motivo de fallo Respuesta incorrecta68 Con motivo de fallo Sin respuesta29 Con motivo de fallo Error de API26 Con motivo de fallo Tiempo agotado5 Con motivo de fallo Formato extra1 Con motivo de fallo No siguió las instrucciones1

210/210

Rango	Modelo	Empresa	Puntuación de Combinado	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#37	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	2/2	163.3s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.405 Tiempo de respuesta (promedio) 163.3s
#39	GPT-5.6 Terra medium	OpenAI	10.0	7.8	$0.676	2/2	11.1s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.676 Tiempo de respuesta (promedio) 11.1s
#40	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	2/2	93.7s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $2.057 Tiempo de respuesta (promedio) 93.7s
#43	Claude Opus 4.6 medium	Anthropic	10.0	7.7	$3.059	2/2	114.1s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $3.059 Tiempo de respuesta (promedio) 114.1s
#44	GPT-5.6 Luna high	OpenAI	10.0	7.7	$1.017	2/2	19.0s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $1.017 Tiempo de respuesta (promedio) 19.0s
#46	DeepSeek V4 Pro high	DeepSeek	10.0	7.7	$0.200	2/2	79.0s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.200 Tiempo de respuesta (promedio) 79.0s
#47	MiniMax M3 medium	Minimax	10.0	7.6	$0.286	2/2	138.2s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.286 Tiempo de respuesta (promedio) 138.2s
#48	Grok Build 0.1 medium	X AI	10.0	7.6	$1.097	2/2	65.1s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $1.097 Tiempo de respuesta (promedio) 65.1s
#50	GPT-5.6 Luna medium	OpenAI	10.0	7.6	$0.352	2/2	14.6s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.352 Tiempo de respuesta (promedio) 14.6s
#54	GPT-5.3 Chat none	OpenAI	10.0	7.5	$0.571	2/2	15.1s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.571 Tiempo de respuesta (promedio) 15.1s
#71	Qwen3.7 Plus none	Qwen	10.0	7.2	$0.106	2/2	117.7s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.106 Tiempo de respuesta (promedio) 117.7s
#91	LongCat 2.0 low	Meituan	10.0	6.7	$0.391	2/2	130.2s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.391 Tiempo de respuesta (promedio) 130.2s
#97	LongCat 2.0 high	Meituan	10.0	6.6	$0.469	2/2	167.1s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $0.469 Tiempo de respuesta (promedio) 167.1s
#14	Claude Opus 4.8 medium	Anthropic	9.9	8.8	$1.931	2/2	54.3s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $1.931 Tiempo de respuesta (promedio) 54.3s
#41	Claude Opus 4.8 low	Anthropic	9.9	7.8	$2.077	2/2	36.9s
Pruebas totales 2 Pruebas incorrectas 0 Costo total $2.077 Tiempo de respuesta (promedio) 36.9s

Ranking de Combinado

Filtrar modelos

Mejores modelos por Puntuación de Combinado

Puntuación de Combinado vs costo total

Mejores modelos por Tiempo de respuesta (promedio)