Comparar Gráficos Metodología

Idioma:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.3 Chat vs Qwen: Qwen3.5-27B

Comparar:

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-06

Métrica	OpenAI: GPT-5.3 Chat none Lanzamiento: 2026-03-03	Qwen: Qwen3.5-27B medium Lanzamiento: 2026-02-24
Rango	#19	#7
Puntaje prom.	7.3	8.2
Consistencia	8.5	9.1
Costo por resultado	3.163	3.585
Costo total	$0.317	$0.431
Pruebas correctas
Tasa de aciertos por intento	70.8%	81.3%
Pruebas inestables	3	2
Ejecuciones totales	48 (16 x 3)	48 (16 x 3)
Tokens de salida	19,272	1,658
Tokens de razonamiento	0	200,786
Tiempo de respuesta (promedio)	5.96s	52.13s
Tiempo de respuesta (máximo)	18.33s	163.96s
Tiempo de respuesta (total)	95.30s	834.16s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntaje prom. vs Tiempo de respuesta (promedio)

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.3 Chat	7.3	7.5	77.8%	1		4.72s	3,091	0
Qwen: Qwen3.5-27B	10.0	10.0	100.0%	0		9.69s	102	8,956

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	2,614	0
Qwen: Qwen3.5-27B	10.0	10.0	100.0%	0		163.96s	483	9,991

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.3 Chat	9.9	10.0	100.0%	0		2.21s	942	0
Qwen: Qwen3.5-27B	9.9	10.0	100.0%	0		30.26s	270	16,150

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.3 Chat	10.0	4.4	33.3%	2		13.01s	8,264	0
Qwen: Qwen3.5-27B	4.0	10.0	33.3%	0		79.53s	43	52,368

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.3 Chat	4.0	10.0	0.0%	0		1.99s	319	0
Qwen: Qwen3.5-27B	5.0	3.1	66.7%	1		101.41s	70	23,147

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.3 Chat	9.0	10.0	50.0%	0		3.29s	1,455	0
Qwen: Qwen3.5-27B	10.0	10.0	100.0%	0		19.66s	97	11,638

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		2.93s	1,726	0
Qwen: Qwen3.5-27B	8.3	7.7	77.8%	1		64.61s	245	77,213

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	861	0
Qwen: Qwen3.5-27B	10.0	10.0	100.0%	0		7.45s	348	1,323

Comparación rápida

Cambiar par de comparación

Gemini 3.1 Flash Lite PreviewhighvsQwen3.5-27Bmedium DeepSeek V3.2mediumvsGPT-5.3 Chatnone Gemini 3 Flash PreviewlowvsQwen3.5-27Bmedium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsMiMo-V2-Flashmedium Gemini 2.5 FlashmediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGLM 5medium GPT-5.3 ChatnonevsStep 3.5 FlashmediumDisponible gratis Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.3 Chatnone Seed-2.0-MinimediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsQwen3.5-Flashmedium Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone