Comparar Gráficos Metodología

Idioma:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.4 vs Qwen: Qwen3.5 Plus 2026-02-15

Comparar:

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-06

Métrica	OpenAI: GPT-5.4 medium Lanzamiento: 2026-03-05	Qwen: Qwen3.5 Plus 2026-02-15 none Lanzamiento: 2026-02-15
Rango	#9	#29
Puntaje prom.	8.0	6.2
Consistencia	8.5	9.6
Costo por resultado	6.601	0.172
Costo total	$0.793	$0.016
Pruebas correctas
Tasa de aciertos por intento	83.3%	58.3%
Pruebas inestables	3	1
Ejecuciones totales	48 (16 x 3)	48 (16 x 3)
Tokens de salida	1,756	2,015
Tokens de razonamiento	46,642	0
Tiempo de respuesta (promedio)	20.05s	2.65s
Tiempo de respuesta (máximo)	100.41s	6.65s
Tiempo de respuesta (total)	320.87s	26.52s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		5.02s	216	1,466
Qwen: Qwen3.5 Plus 2026-02-15	4.0	10.0	33.3%	0		2.74s	514	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		20.57s	301	3,543
Qwen: Qwen3.5 Plus 2026-02-15	10.0	10.0	0.0%	0		6.65s	314	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		5.32s	234	804
Qwen: Qwen3.5 Plus 2026-02-15	9.9	10.0	100.0%	0		1.89s	243	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		74.27s	61	34,748
Qwen: Qwen3.5 Plus 2026-02-15	4.0	10.0	33.3%	0		1.17s	17	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.4	5.0	3.1	33.3%	1		4.92s	145	321
Qwen: Qwen3.5 Plus 2026-02-15	4.0	3.0	33.3%	1		2.26s	117	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		3.11s	93	897
Qwen: Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		1.67s	72	0

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.4	7.0	7.2	88.9%	1		9.13s	442	3,832
Qwen: Qwen3.5 Plus 2026-02-15	7.0	10.0	66.7%	0		2.82s	516	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		13.28s	264	1,031
Qwen: Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		3.33s	222	0

Comparación rápida

Cambiar par de comparación

Qwen3.5 Plus 2026-02-15nonevsGrok 4.1 Fastmedium Gemini 3.1 Flash Lite PreviewhighvsGPT-5.4medium Gemini 3 Flash PreviewlowvsGPT-5.4medium Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none GPT-5 MinimediumvsQwen3.5 Plus 2026-02-15none GPT-5.2mediumvsQwen3.5 Plus 2026-02-15none Claude Opus 4.6mediumvsQwen3.5 Plus 2026-02-15none GPT-5 NanomediumvsQwen3.5 Plus 2026-02-15none Seed-2.0-MinimediumvsQwen3.5 Plus 2026-02-15none Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium Gemini 3 Flash PreviewnonevsGPT-5.4medium Mercury 2mediumvsQwen3.5 Plus 2026-02-15none