AI BENCHY Compare

OpenAI: GPT-5.5 vs Qwen: Qwen3.7 Max

Resumen

Comparación benchmark de GPT-5.5 vs Qwen3.7 Max: GPT-5.5 lidera en puntuación media con 9.3 vs 6.9. Qwen3.7 Max tiene menor coste de benchmark con $0.054 vs $0.907. Qwen3.7 Max es más rápido con 1.30s vs 9.76s, con tasas de acierto de 85.7% vs 66.7%.

Modelo recomendado: Qwen3.7 Max - Ofrece el mejor equilibrio general: puntuación competitiva (6.9), menor coste que GPT-5.5 y tiempo de respuesta equilibrado.

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-06-18

Métrica	GPT-5.5 GPT-5.5 low Lanzamiento: 2026-04-24	Qwen3.7 Max Qwen3.7 Max none Lanzamiento: 2026-05-22

Métrica	GPT-5.5 GPT-5.5 low Lanzamiento: 2026-04-24	Qwen3.7 Max Qwen3.7 Max none Lanzamiento: 2026-05-22
Puntuación	9.3	6.9
Rango	#4	#68
Fiabilidad	10.0	10.0
Consistencia	10.0	10.0
Pruebas correctas
Tasa de aciertos por intento	85.7%	66.7%
Pruebas inestables	0	0
Ejecuciones totales	63	63
Costo por resultado	5.035	0.744
Costo total	$0.907	$0.054
Precio de entrada	$5.000 / 1M	$1.250 / 1M
Precio de salida	$30.000 / 1M	$3.750 / 1M
Total de tokens de entrada	34,209	37,107
Tokens de salida	2,046	1,994
Tokens de razonamiento	22,460	0
Tiempo de respuesta (promedio)	9.76s	1.30s
Tiempo de respuesta (máximo)	56.19s	3.92s
Tiempo de respuesta (total)	204.92s	27.21s

Generación showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#4 GPT-5.5

low

Coste: $0.068
Tiempo: 37.0s
Tokens: 2,339 tok

#68 Qwen3.7 Max

none

Coste: $0.046
Tiempo: 195.0s
Tokens: 12,171 tok

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.5	10.0	10.0	100.0%	0		4.41s	606	238	1,020
Qwen3.7 Max	6.5	10.0	50.0%	0		1.08s	696	242	0

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.5	10.0	10.0	100.0%	0		15.04s	7,302	423	6,402
Qwen3.7 Max	5.5	10.0	33.3%	0		1.35s	7,911	582	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.5	10.0	10.0	100.0%	0		9.56s	11,019	303	717
Qwen3.7 Max	3.0	10.0	0.0%	0		2.17s	9,549	171	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.5	10.0	10.0	100.0%	0		3.28s	7,140	228	157
Qwen3.7 Max	10.0	10.0	100.0%	0		1.35s	7,794	243	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.5	5.3	10.0	33.3%	0		28.05s	723	69	11,609
Qwen3.7 Max	7.7	10.0	66.7%	0		975ms	789	15	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.5	10.0	10.0	100.0%	0		5.17s	477	133	245
Qwen3.7 Max	10.0	10.0	100.0%	0		1.04s	522	120	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.5	9.9	10.0	100.0%	0		3.74s	660	93	415
Qwen3.7 Max	10.0	10.0	100.0%	0		943ms	711	72	0

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.5	10.0	10.0	100.0%	0		4.74s	642	279	954
Qwen3.7 Max	10.0	10.0	100.0%	0		1.13s	714	314	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.5	10.0	10.0	100.0%	0		4.96s	5,445	250	101
Qwen3.7 Max	10.0	10.0	100.0%	0		3.92s	8,211	222	0

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.5	3.0	10.0	0.0%	0		10.06s	195	30	840
Qwen3.7 Max	3.0	10.0	0.0%	0		856ms	210	13	0

Comparación rápida

Cambiar par de comparación

Gemini 3.5 FlashminimalvsQwen3.7 Maxnone GPT-5.5lowvsQwen3.7 Maxmedium Ring-2.6-1TmediumvsQwen3.7 Maxnone Claude Fable 5mediumvsGPT-5.5low Gemini 3.1 Pro PreviewmediumvsGPT-5.5low Qwen3.7 MaxnonevsMiMo-V2.5medium Kimi K2.7 CodemediumvsQwen3.7 Maxnone gpt-oss-120bmediumDisponible gratisvsQwen3.7 Maxnone GPT-5 NanomediumvsQwen3.7 Maxnone Gemini 3.5 FlashmediumvsGPT-5.5low Qwen3.7 MaxnonevsGLM 5.1medium Qwen3.7 MaxnonevsStep 3.7 Flashhigh