AI BENCHY Compare

MoonshotAI: Kimi K2.5 vs Qwen: Qwen3.5-35B-A3B

Benchmarks generados a partir de los suites de prueba de AI BENCHY en: 2026-05-01

Métrica	Kimi K2.5 Kimi K2.5 medium Lanzamiento: 2026-01-27	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium Lanzamiento: 2026-02-24

Métrica	Kimi K2.5 Kimi K2.5 medium Lanzamiento: 2026-01-27	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium Lanzamiento: 2026-02-24
Puntuación	7.0	7.4
Rango	#60	#57
Fiabilidad	N/D	N/D
Consistencia	6.8	6.7
Pruebas correctas
Tasa de aciertos por intento	72.2%	79.6%
Pruebas inestables	7	7
Ejecuciones totales	54	54
Costo por resultado	2.444	3.976
Costo total	$0.220	$0.398
Precio de entrada	$0.440 / 1M	$0.163 / 1M
Precio de salida	$2.000 / 1M	$1.300 / 1M
Tokens de salida	42,176	10,137
Tokens de razonamiento	84,870	208,761
Tiempo de respuesta (promedio)	72.43s	44.51s
Tiempo de respuesta (máximo)	150.77s	106.00s
Tiempo de respuesta (total)	796.70s	801.21s

Mejores modelos por puntuación

Puntuación vs costo total

Tiempo de respuesta (promedio)

Puntuación vs Tiempo de respuesta (promedio)

Total de tokens de salida

Puntuación vs Total de tokens de salida

Desglose por categoría

Trucos anti-IA	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	2,789	8,880
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		21.13s	798	42,652

Programación	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Kimi K2.5	4.7	1.6	66.7%	1		150.77s	1,269	9,749
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		79.09s	4,273	33,078

Combinado	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Kimi K2.5	10.0	10.0	100.0%	0		71.37s	703	3,713
Qwen3.5-35B-A3B	4.7	1.6	66.7%	1		75.34s	775	12,485

Análisis y extracción de datos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	563	7,940
Qwen3.5-35B-A3B	7.3	5.9	83.3%	1		59.33s	235	19,493

Específico del dominio	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	20,753	30,564
Qwen3.5-35B-A3B	4.1	4.4	44.5%	2		88.34s	41	46,368

Inteligencia general	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	3,815	4,262
Qwen3.5-35B-A3B	2.8	1.6	33.3%	1		30.30s	20	3,753

Seguimiento de instrucciones	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	5,371	6,547
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		24.45s	97	17,361

Resolución de acertijos	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Kimi K2.5	5.3	7.3	44.4%	1		45.40s	6,671	12,403
Qwen3.5-35B-A3B	6.4	4.4	77.8%	2		31.58s	3,589	32,206

Llamada de herramientas	Puntuación	Consistencia	Tasa de aciertos por intento	Pruebas inestables	Pruebas correctas	Tiempo de respuesta (promedio)	Tokens de salida	Tokens de razonamiento
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	242	812
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		4.65s	309	1,365

Comparación rápida

Cambiar par de comparación

Claude Sonnet 4.6nonevsQwen3.5-35B-A3Bmedium DeepSeek V4 ProhighvsKimi K2.5medium Gemma 4 31BnoneDisponible gratisvsKimi K2.5medium Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none Kimi K2.5mediumvsGPT-5.5none Kimi K2.5mediumvsGLM 5none Claude Sonnet 4.6nonevsKimi K2.5medium DeepSeek V4 FlashhighvsQwen3.5-35B-A3Bmedium GPT-5.3 ChatnonevsQwen3.5-35B-A3Bmedium DeepSeek V4 ProhighvsQwen3.5-35B-A3Bmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-35B-A3Bmedium GPT-5.2 ChatnonevsQwen3.5-35B-A3Bmedium