AI BENCHY Compare

MoonshotAI: Kimi K2.5 vs Qwen: Qwen3.6 27B

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-04-27

Métrica	Kimi K2.5 Kimi K2.5 medium Lançamento: 2026-01-27	Qwen3.6 27B Qwen3.6 27B medium Lançamento: 2026-04-20

Métrica	Kimi K2.5 Kimi K2.5 medium Lançamento: 2026-01-27	Qwen3.6 27B Qwen3.6 27B medium Lançamento: 2026-04-20
Pontuação	7.0	7.0
Posição	#59	#60
Confiabilidade	N/D	10.0
Consistência	6.8	7.9
Testes corretos
Taxa de acerto por tentativa	72.2%	64.8%
Testes instáveis	7	5
Execuções totais	54	54
Custo por resultado	2.444	2.321
Custo total	$0.220	$0.209
Preço de entrada	$0.440 / 1M	$0.500 / 1M
Preço de saída	$2.000 / 1M	$2.000 / 1M
Tokens de saída	42,176	8,279
Tokens de raciocínio	84,870	91,083
Tempo de resposta (médio)	72.43s	50.53s
Tempo de resposta (máx.)	150.77s	168.22s
Tempo de resposta (total)	796.70s	909.49s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	2,789	8,880
Qwen3.6 27B	8.3	10.0	75.0%	0		12.62s	582	4,311

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Kimi K2.5	4.7	1.6	66.7%	1		150.77s	1,269	9,749
Qwen3.6 27B	10.0	10.0	100.0%	0		168.22s	433	17,861

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Kimi K2.5	10.0	10.0	100.0%	0		71.37s	703	3,713
Qwen3.6 27B	7.0	3.7	66.7%	1		83.07s	2,088	14,689

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	563	7,940
Qwen3.6 27B	3.5	1.4	50.0%	2		37.30s	568	9,404

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	20,753	30,564
Qwen3.6 27B	2.9	7.2	11.1%	1		73.38s	3,510	20,352

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	3,815	4,262
Qwen3.6 27B	6.5	3.4	66.7%	1		39.53s	81	3,045

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	5,371	6,547
Qwen3.6 27B	10.0	10.0	100.0%	0		37.96s	346	6,548

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Kimi K2.5	5.3	7.3	44.4%	1		45.40s	6,671	12,403
Qwen3.6 27B	7.7	10.0	66.7%	0		60.21s	281	11,919

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	242	812
Qwen3.6 27B	10.0	10.0	100.0%	0		16.88s	390	2,954

Comparação rápida

Trocar par de comparação

Gemma 4 31BnoneDisponível grátisvsQwen3.6 27Bmedium Gemma 4 31BnoneDisponível grátisvsKimi K2.5medium DeepSeek V4 ProhighvsQwen3.6 27Bmedium DeepSeek V4 ProhighvsKimi K2.5medium Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none GPT-5.5nonevsQwen3.6 27Bmedium Kimi K2.5mediumvsGPT-5.5none DeepSeek V4 PrononevsQwen3.6 27Bmedium DeepSeek V4 PrononevsKimi K2.5medium Kimi K2.5mediumvsQwen3.6 Max Previewnone Qwen3.6 27BmediumvsGLM 5none Kimi K2.5mediumvsGLM 5none