Comparar Gráficos

Idioma:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.4 vs Qwen: Qwen3.5-27B

Comparar:

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-05

Métrica	OpenAI: GPT-5.4 none Lanzamiento: 2026-03-05	Qwen: Qwen3.5-27B none Lanzamiento: 2026-02-24
Rango	#44	#41
Puntaje prom.	4.6	4.9
Pruebas correctas
Consistencia	8.9	9.0
Costo por resultado	1.496	0.297
Costo total	$0.090	$0.015
Tasa de aciertos por intento	44.4%	40.0%
Pruebas inestables	2	2
common.totalAttempts	45 (15 x 3)	45 (15 x 3)
Tokens de salida	1,635	3,035
Tokens de razonamiento	0	0
Tiempo de respuesta (promedio)	1.46s	1.70s
Tiempo de respuesta (máximo)	2.89s	9.39s
Tiempo de respuesta (total)	21.86s	25.55s

Mejores modelos por puntuación

Tiempo de respuesta (promedio)

Puntuación vs costo total

Puntaje prom. vs Tiempo de respuesta (promedio)

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0
Qwen: Qwen3.5-27B	4.0	10.0	33.3%	0		796ms	264	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0
Qwen: Qwen3.5-27B	10.0	1.6	33.3%	1		9.39s	1,461	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0
Qwen: Qwen3.5-27B	9.9	10.0	100.0%	0		1.43s	243	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0
Qwen: Qwen3.5-27B	10.0	10.0	0.0%	0		540ms	15	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0
Qwen: Qwen3.5-27B	4.5	10.0	0.0%	0		815ms	69	0

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0
Qwen: Qwen3.5-27B	6.3	7.9	55.6%	1		1.37s	680	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0
Qwen: Qwen3.5-27B	10.0	10.0	100.0%	0		3.54s	303	0

Comparación rápida

Cambiar par de comparación

MiniMax M2.5mediumvsQwen3.5-27Bnone MiniMax M2.5mediumvsGPT-5.4none gpt-oss-120bmediumDisponible gratisvsQwen3.5-27Bnone Mercury 2mediumvsQwen3.5-27Bnone GPT-5 NanomediumvsQwen3.5-27Bnone Mercury 2mediumvsGPT-5.4none GPT-5 MinimediumvsQwen3.5-27Bnone GPT-5.4nonevsQwen3.5-35B-A3Bmedium GPT-5.4nonevsQwen3 Coder Nextmedium GPT-5.4nonevsGLM 4.7 Flashmedium Claude Opus 4.6mediumvsQwen3.5-27Bnone Kimi K2.5mediumvsQwen3.5-27Bnone