Comparar Gráficos Metodología

Idioma:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.4 vs Qwen: Qwen3.5-Flash

Comparar:

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-06

Métrica	OpenAI: GPT-5.4 none Lanzamiento: 2026-03-05	Qwen: Qwen3.5-Flash medium Lanzamiento: 2026-02-24
Puntaje prom.	4.6	7.0
Rango	#44	#24
Pruebas correctas
Consistencia	8.9	7.8
Costo por resultado	1.496	0.565
Costo total	$0.090	$0.057
Tasa de aciertos por intento	44.4%	82.2%
Pruebas inestables	2	4
common.totalRuns	45 (15 x 3)	45 (15 x 3)
Tokens de salida	1,635	1,708
Tokens de razonamiento	0	131,466
Tiempo de respuesta (promedio)	1.46s	72.86s
Tiempo de respuesta (máximo)	2.89s	234.29s
Tiempo de respuesta (total)	21.86s	1092.84s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		71.35s	363	23,645

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		17.78s	483	8,270

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0
Qwen: Qwen3.5-Flash	5.5	5.9	83.3%	1		56.99s	235	16,237

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0
Qwen: Qwen3.5-Flash	4.0	7.2	44.4%	1		146.50s	58	43,615

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		63.49s	98	14,139

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0
Qwen: Qwen3.5-Flash	4.0	4.4	77.8%	2		56.74s	162	24,276

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		10.33s	309	1,284

Comparación rápida

Cambiar par de comparación

Gemini 3 Flash PreviewnonevsQwen3.5-Flashmedium Claude Sonnet 4.6nonevsQwen3.5-Flashmedium MiniMax M2.5mediumvsGPT-5.4none Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-Flashmedium GPT-5.3 ChatnonevsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-Flashmedium GPT-5.2 ChatnonevsQwen3.5-Flashmedium Mercury 2mediumvsGPT-5.4none Gemini 3.1 Flash Lite PreviewhighvsQwen3.5-Flashmedium Gemini 3 Flash PreviewlowvsQwen3.5-Flashmedium Qwen3.5-FlashmediumvsGLM 5none GPT-5.4nonevsQwen3.5-35B-A3Bmedium