Navegação
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs MoonshotAI: Kimi K2.6

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-22

Métrica Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lançamento: 2026-02-17 Kimi K2.6 Kimi K2.6 medium Lançamento: 2026-04-20
Pontuação 7.6 7.4
Posição #46 #54
Confiabilidade 10.0 8.3
Consistência 9.2 8.3
Testes corretos
Taxa de acerto por tentativa 68.3% 70.8%
Testes instáveis 2 4
Execuções totais 60 60
Custo por resultado 10.227 7.630
Custo total $1.330 $0.916
Preço de entrada $3.000 / 1M $0.730 / 1M
Preço de saída $15.000 / 1M $3.490 / 1M
Tokens de saída 49,888 102,488
Tokens de raciocínio 29,554 229,389
Tempo de resposta (médio) 15.72s 54.11s
Tempo de resposta (máx.) 46.35s 215.85s
Tempo de resposta (total) 188.69s 1028.14s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Sonnet 4.6 6.5 10.0 50.0% 0 2.98s 1,046 1,093
Kimi K2.6 7.0 8.0 66.7% 1 11.59s 7,115 8,934
Programação Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Sonnet 4.6 6.9 6.0 66.7% 1 33.87s 11,277 3,281
Kimi K2.6 6.5 5.3 75.0% 1 118.23s 9,255 52,215
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Sonnet 4.6 10.0 10.0 100.0% 0 46.35s 5,871 3,962
Kimi K2.6 10.0 10.0 100.0% 0 40.96s 711 13,876
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Sonnet 4.6 10.0 10.0 100.0% 0 13.90s 649 742
Kimi K2.6 10.0 10.0 100.0% 0 20.38s 316 11,305
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Sonnet 4.6 2.9 7.2 11.1% 1 0ms 25,790 16,919
Kimi K2.6 5.3 7.2 44.4% 1 202.38s 47,035 98,262
Inteligência geral Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Sonnet 4.6 10.0 10.0 100.0% 0 4.94s 256 433
Kimi K2.6 10.0 10.0 100.0% 0 17.83s 3,981 4,472
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Sonnet 4.6 10.0 10.0 100.0% 0 2.61s 318 552
Kimi K2.6 10.0 10.0 100.0% 0 12.53s 3,977 5,269
Resolução de quebra-cabeças Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Sonnet 4.6 10.0 10.0 100.0% 0 4.80s 589 635
Kimi K2.6 6.0 7.4 55.6% 1 25.59s 14,140 17,868
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Sonnet 4.6 10.0 10.0 100.0% 0 7.48s 655 351
Kimi K2.6 10.0 10.0 100.0% 0 8.92s 248 1,011
Conhecimentos gerais Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Sonnet 4.6 3.0 10.0 0.0% 0 30.09s 3,437 1,586
Kimi K2.6 3.0 10.0 0.0% 0 130.27s 15,710 16,177

Comparação rápida

Trocar par de comparação