AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Qwen: Qwen3.6 Max Preview

Resumen

Comparación benchmark de Claude Opus 4.6 vs Qwen3.6 Max Preview: Claude Opus 4.6 lidera en puntuación media con 7.0 vs 6.9. Qwen3.6 Max Preview tiene menor coste de benchmark con $0.075 vs $2.053. Qwen3.6 Max Preview es más rápido con 3.30s vs 25.89s, con tasas de acierto de 61.9% vs 58.7%.

Modelo recomendado: Qwen3.6 Max Preview - Su puntuación se mantiene cerca de la mejor aquí (6.9 vs 7.0) y cuesta aproximadamente 27.7x menos que Claude Opus 4.6.

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-06-10

Métrica	Claude Opus 4.6 Claude Opus 4.6 medium Lanzamiento: 2026-02-05	Qwen3.6 Max Preview Qwen3.6 Max Preview none Lanzamiento: 2026-04-20

Métrica	Claude Opus 4.6 Claude Opus 4.6 medium Lanzamiento: 2026-02-05	Qwen3.6 Max Preview Qwen3.6 Max Preview none Lanzamiento: 2026-04-20
Puntuación	7.0	6.9
Rango	#70	#75
Fiabilidad	10.0	10.0
Consistencia	8.8	9.2
Pruebas correctas
Tasa de aciertos por intento	61.9%	58.7%
Pruebas inestables	3	2
Ejecuciones totales	63	63
Costo por resultado	17.103	0.824
Costo total	$2.053	$0.075
Precio de entrada	$5.000 / 1M	$1.040 / 1M
Precio de salida	$25.000 / 1M	$6.240 / 1M
Total de tokens de entrada	53,227	42,509
Tokens de salida	47,446	4,779
Tokens de razonamiento	24,000	0
Tiempo de respuesta (promedio)	25.89s	3.30s
Tiempo de respuesta (máximo)	83.40s	20.51s
Tiempo de respuesta (total)	362.49s	69.40s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#70 Claude Opus 4.6

medium

Invalid SVG

Cost: $0.000
Time: 300.0s
Tokens: 0 tok

#75 Qwen3.6 Max Preview

none

Cost: $0.025
Time: 83.9s
Tokens: 4,066 tok

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	840	986	1,071
Qwen3.6 Max Preview	5.2	7.9	41.7%	1		2.63s	696	513	0

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	5.7	7.1	44.4%	1		30.10s	8,522	13,057	4,121
Qwen3.6 Max Preview	3.8	7.3	22.2%	1		3.12s	7,913	456	0

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	20,685	8,178	5,194
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		20.51s	14,949	2,842	0

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	8,676	691	757
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.87s	7,794	243	0

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	674	14,642	8,687
Qwen3.6 Max Preview	7.7	10.0	66.7%	0		1.22s	789	18	0

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	564	188	292
Qwen3.6 Max Preview	4.3	10.0	0.0%	0		1.62s	522	76	0

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	792	266	467
Qwen3.6 Max Preview	9.8	10.0	100.0%	0		1.40s	711	69	0

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	7.7	10.0	66.7%	0		4.71s	816	532	630
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.65s	714	321	0

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	11,454	861	329
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		5.27s	8,211	222	0

Cultura general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de entrada	Tokens de salida	Tokens de razonamiento
Claude Opus 4.6	3.0	10.0	0.0%	0		63.24s	204	8,045	2,452
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		1.97s	210	19	0

Comparación rápida

Cambiar par de comparación

Claude Opus 4.6mediumvsStep 3.7 Flashhigh Ring-2.6-1TmediumvsQwen3.6 Max Previewnone Seed-2.0-MinimediumvsQwen3.6 Max Previewnone Kimi K2.5mediumvsQwen3.6 Max Previewnone DeepSeek V3.2mediumvsQwen3.6 Max Previewnone Claude Opus 4.6mediumvsGPT-5.3 Chatnone Qwen3.6 Max PreviewnonevsStep 3.7 Flashhigh GPT-5.4 NanomediumvsQwen3.6 Max Previewnone Claude Opus 4.6mediumvsGemini 3.1 Flash Litelow MiniMax M3mediumvsQwen3.6 Max Previewnone Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Opus 4.6mediumvsStep 3.7 Flashlow