AI BENCHY Compare

OpenAI: GPT-5.4 Mini vs Qwen: Qwen3.5-27B

Resumen

Comparación benchmark de GPT-5.4 Mini vs Qwen3.5-27B: Qwen3.5-27B lidera en puntuación media con 5.9 vs 5.3. Qwen3.5-27B tiene menor coste de benchmark con $0.015 vs $0.038. GPT-5.4 Mini es más rápido con 1.13s vs 1.68s, con tasas de acierto de 30.2% vs 38.1%.

Modelo recomendado: Qwen3.5-27B - Tiene la mejor puntuación aquí (5.9) y cuesta aproximadamente 2.6x menos que GPT-5.4 Mini.

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-06-12

Métrica	GPT-5.4 Mini GPT-5.4 Mini none Lanzamiento: 2026-03-17	Qwen3.5-27B Qwen3.5-27B none Lanzamiento: 2026-02-24

Métrica	GPT-5.4 Mini GPT-5.4 Mini none Lanzamiento: 2026-03-17	Qwen3.5-27B Qwen3.5-27B none Lanzamiento: 2026-02-24
Puntuación	5.3	5.9
Rango	#131	#109
Fiabilidad	10.0	10.0
Consistencia	8.8	9.3
Pruebas correctas
Tasa de aciertos por intento	30.2%	38.1%
Pruebas inestables	3	2
Ejecuciones totales	63	63
Costo por resultado	0.743	0.249
Costo total	$0.038	$0.015
Precio de entrada	$0.750 / 1M	$0.195 / 1M
Precio de salida	$4.500 / 1M	$1.560 / 1M
Total de tokens de entrada	34,244	44,478
Tokens de salida	2,541	3,592
Tokens de razonamiento	0	0
Tiempo de respuesta (promedio)	1.13s	1.68s
Tiempo de respuesta (máximo)	2.52s	9.39s
Tiempo de respuesta (total)	23.82s	35.25s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#131 GPT-5.4 Mini

none

Cost: $0.010
Time: 11.7s
Tokens: 2,151 tok

#109 Qwen3.5-27B

none

Cost: $0.007
Time: 42.9s
Tokens: 4,273 tok

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.4 Mini	3.1	8.1	8.3%	1		929ms	606	654	0
Qwen3.5-27B	4.8	10.0	25.0%	0		788ms	696	267	0

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.4 Mini	5.5	10.0	33.3%	0		913ms	7,305	401	0
Qwen3.5-27B	5.8	10.0	33.3%	0		1.80s	7,913	415	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.4 Mini	3.0	10.0	0.0%	0		2.52s	11,019	298	0
Qwen3.5-27B	2.8	1.6	33.3%	1		9.39s	16,918	1,461	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.4 Mini	10.0	10.0	100.0%	0		1.30s	7,140	222	0
Qwen3.5-27B	10.0	10.0	100.0%	0		1.43s	7,794	243	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.4 Mini	3.5	4.4	33.3%	2		937ms	723	88	0
Qwen3.5-27B	3.0	10.0	0.0%	0		540ms	789	15	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.4 Mini	4.8	10.0	0.0%	0		1.82s	477	174	0
Qwen3.5-27B	5.0	10.0	0.0%	0		2.51s	522	126	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.4 Mini	6.3	10.0	50.0%	0		728ms	660	101	0
Qwen3.5-27B	6.3	10.0	50.0%	0		1.03s	711	69	0

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.4 Mini	5.4	10.0	33.3%	0		836ms	642	305	0
Qwen3.5-27B	6.7	7.9	55.6%	1		1.38s	714	683	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.4 Mini	3.0	10.0	0.0%	0		2.32s	5,477	255	0
Qwen3.5-27B	10.0	10.0	100.0%	0		3.54s	8,211	303	0

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.4 Mini	3.0	10.0	0.0%	0		1.33s	195	43	0
Qwen3.5-27B	3.0	10.0	0.0%	0		599ms	210	10	0

Comparación rápida

Cambiar par de comparación

MiniMax M2.7mediumvsGPT-5.4 Mininone Mistral Small 4mediumvsGPT-5.4 Mininone Gemini 3.1 Flash LiteminimalvsQwen3.5-27Bnone CobuddymediumvsGPT-5.4 Mininone DeepSeek V4 ProhighvsQwen3.5-27Bnone Gemma 4 31BmediumDisponible gratisvsQwen3.5-27Bnone Nemotron 3 SupermediumDisponible gratisvsQwen3.5-27Bnone Gemini 3.1 Flash LitelowvsQwen3.5-27Bnone MiniMax M2.5mediumvsGPT-5.4 Mininone Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-27Bnone GPT-5.4 MininonevsQwen3 Coder Nextmedium MiniMax M2.7mediumvsQwen3.5-27Bnone