AI BENCHY Compare

OpenAI: GPT-5.3 Chat vs Qwen: Qwen3.5-35B-A3B

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-03-15

Métrica	GPT-5.3 Chat GPT-5.3 Chat none Lanzamiento: 2026-03-03	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium Lanzamiento: 2026-02-24

Métrica	GPT-5.3 Chat GPT-5.3 Chat none Lanzamiento: 2026-03-03	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium Lanzamiento: 2026-02-24
Rango	#23	#33
Puntuación	7.8	7.1
Consistencia	8.5	6.3
Costo por resultado	3.163	4.251
Costo total	$0.317	$0.341
Pruebas correctas
Tasa de aciertos por intento	70.8%	77.1%
Pruebas inestables	3	7
Ejecuciones totales	48	48
Tokens de salida	19,272	5,495
Tokens de razonamiento	0	169,266
Tiempo de respuesta (promedio)	5.96s	43.93s
Tiempo de respuesta (máximo)	18.33s	106.00s
Tiempo de respuesta (total)	95.30s	702.85s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.3 Chat	7.9	7.5	77.8%	1		4.72s	3,091	0
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		21.75s	429	36,235

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	2,614	0
Qwen3.5-35B-A3B	4.7	1.6	66.7%	1		75.34s	775	12,485

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.21s	942	0
Qwen3.5-35B-A3B	7.3	5.9	83.3%	1		59.33s	235	19,493

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.3 Chat	3.5	4.4	33.3%	2		13.01s	8,264	0
Qwen3.5-35B-A3B	4.1	4.4	44.5%	2		88.34s	41	46,368

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.3 Chat	4.6	10.0	0.0%	0		1.99s	319	0
Qwen3.5-35B-A3B	2.8	1.6	33.3%	1		30.30s	20	3,753

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.3 Chat	8.3	10.0	50.0%	0		3.29s	1,455	0
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		24.45s	97	17,361

Puzzle Solving	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.93s	1,726	0
Qwen3.5-35B-A3B	6.4	4.4	77.8%	2		31.58s	3,589	32,206

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	861	0
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		4.65s	309	1,365

Comparación rápida

Cambiar par de comparación

GPT-5.3 ChatnonevsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGrok 4.20 Betamedium GPT-5.3 ChatnonevsStep 3.5 FlashmediumDisponible gratis GPT-5.3 ChatnonevsGLM 5 Turbomedium GPT-5.3 ChatnonevsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.3 Chatnone Qwen3.5-35B-A3BmediumvsGLM 5none Seed-2.0-MinimediumvsGPT-5.3 Chatnone Gemini 2.5 FlashmediumvsGPT-5.3 Chatnone DeepSeek V3.2mediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGLM 5medium