AI BENCHY Compare

OpenAI: GPT-5.4 vs Qwen: Qwen3 Coder Next

Resumen

Comparación benchmark de GPT-5.4 vs Qwen3 Coder Next: GPT-5.4 lidera en puntuación media con 5.8 vs 5.1. Qwen3 Coder Next tiene menor coste de benchmark con $0.009 vs $0.122. GPT-5.4 es más rápido con 1.42s vs 8.62s, con tasas de acierto de 36.5% vs 27.0%.

Modelo recomendado: GPT-5.4 - Tiene la mejor puntuación aquí (5.8) y responde aproximadamente 6.1x más rápido que Qwen3 Coder Next.

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-07-02

Métrica	GPT-5.4 GPT-5.4 none Lanzamiento: 2026-03-05	Qwen3 Coder Next Qwen3 Coder Next none Lanzamiento: 2026-02-03

Métrica	GPT-5.4 GPT-5.4 none Lanzamiento: 2026-03-05	Qwen3 Coder Next Qwen3 Coder Next none Lanzamiento: 2026-02-03
Puntuación	5.8	5.1
Rango	#115	#135
Fiabilidad	10.0	10.0
Consistencia	9.2	9.7
Pruebas correctas
Tasa de aciertos por intento	36.5%	27.0%
Pruebas inestables	2	1
Ejecuciones totales	63	63
Costo por resultado	1.740	0.165
Costo total	$0.122	$0.009
Precio de entrada	$2.500 / 1M	$0.110 / 1M
Precio de salida	$15.000 / 1M	$0.800 / 1M
Total de tokens de entrada	34,212	47,507
Tokens de salida	2,417	3,584
Tokens de razonamiento	0	0
Tiempo de respuesta (promedio)	1.42s	8.62s
Tiempo de respuesta (máximo)	2.95s	45.14s
Tiempo de respuesta (total)	29.87s	129.37s

Generación showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#115 GPT-5.4

none

Coste: $0.026
Tiempo: 18.1s
Tokens: 1,792 tok

#135 Qwen3 Coder Next

none

SVG inválido

Coste: $0.058
Tiempo: 246.3s
Tokens: 64,126 tok

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.4	3.2	8.0	8.3%	1		1.21s	606	406	0
Qwen3 Coder Next	3.6	10.0	0.0%	0		3.31s	645	1,321	0

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.4	5.5	10.0	33.3%	0		1.62s	7,305	516	0
Qwen3 Coder Next	4.6	7.9	22.2%	1		2.22s	7,442	621	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.4	3.0	10.0	0.0%	0		2.89s	11,019	291	0
Qwen3 Coder Next	3.0	10.0	0.0%	0		45.14s	20,469	317	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.4	10.0	10.0	100.0%	0		1.04s	7,140	222	0
Qwen3 Coder Next	6.5	10.0	50.0%	0		1.32s	7,758	246	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.4	5.3	7.2	44.4%	1		1.07s	723	50	0
Qwen3 Coder Next	5.3	10.0	33.3%	0		962ms	753	26	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.4	4.4	9.9	0.0%	0		1.78s	477	184	0
Qwen3 Coder Next	10.0	10.0	100.0%	0		1.34s	498	152	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.4	6.5	10.0	50.0%	0		1.07s	660	81	0
Qwen3 Coder Next	6.3	10.0	50.0%	0		7.78s	684	63	0

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.4	5.6	9.8	33.3%	0		1.44s	642	381	0
Qwen3 Coder Next	3.0	10.0	0.0%	0		24.34s	678	571	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.4	10.0	10.0	100.0%	0		2.75s	5,445	246	0
Qwen3 Coder Next	10.0	10.0	100.0%	0		2.47s	8,364	255	0

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
GPT-5.4	3.0	10.0	0.0%	0		990ms	195	40	0
Qwen3 Coder Next	3.0	10.0	0.0%	0		601ms	216	12	0

Comparación rápida

Cambiar par de comparación

Mistral Small 4mediumvsQwen3 Coder Nextnone MiniMax M2.7mediumvsQwen3 Coder Nextnone North Mini CodemediumDisponible gratisvsGPT-5.4none CobuddymediumvsQwen3 Coder Nextnone Gemini 3.1 Flash LiteminimalvsGPT-5.4none MiniMax M2.5mediumvsQwen3 Coder Nextnone GPT-5.4nonevsQwen3.5-35B-A3Bmedium Gemma 4 31BmediumDisponible gratisvsGPT-5.4none Nemotron 3 SupermediumDisponible gratisvsGPT-5.4none MiniMax M2.7mediumvsGPT-5.4none Gemini 3.1 Flash LitelowvsGPT-5.4none Mistral Small 4mediumvsGPT-5.4none