Navegação
AI BENCHY
Advertise here

AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs MoonshotAI: Kimi K2.6

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-05-19

Métrica Claude Opus 4.6 Claude Opus 4.6 medium Lançamento: 2026-02-05 Kimi K2.6 Kimi K2.6 medium Lançamento: 2026-04-20
Pontuação 7.4 7.6
Posição #57 #47
Confiabilidade 10.0 10.0
Consistência 9.1 8.7
Testes corretos
Taxa de acerto por tentativa 66.7% 71.9%
Testes instáveis 2 3
Execuções totais 57 57
Custo por resultado 14.243 6.476
Custo total $1.710 $0.778
Preço de entrada $5.000 / 1M $0.730 / 1M
Preço de saída $25.000 / 1M $3.490 / 1M
Tokens de saída 37,874 96,469
Tokens de raciocínio 21,390 195,991
Tempo de resposta (médio) 24.59s 49.92s
Tempo de resposta (máx.) 83.40s 215.85s
Tempo de resposta (total) 295.08s 898.64s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.6 6.4 5.8 66.7% 2 7.45s 986 1,071
Kimi K2.6 7.0 8.0 66.7% 1 11.59s 7,115 8,934
Programação Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.6 10.0 10.0 100.0% 0 23.11s 3,486 1,504
Kimi K2.6 10.0 10.0 100.0% 0 106.96s 3,236 18,817
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.6 10.0 10.0 100.0% 0 76.66s 8,178 5,194
Kimi K2.6 10.0 10.0 100.0% 0 40.96s 711 13,876
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.6 10.0 10.0 100.0% 0 7.37s 691 757
Kimi K2.6 10.0 10.0 100.0% 0 20.38s 316 11,305
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.6 3.0 10.0 0.0% 0 83.40s 14,642 8,687
Kimi K2.6 5.3 7.2 44.4% 1 202.38s 47,035 98,262
Inteligência geral Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.6 10.0 10.0 100.0% 0 5.04s 188 292
Kimi K2.6 10.0 10.0 100.0% 0 17.83s 3,981 4,472
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.6 10.0 10.0 100.0% 0 2.43s 266 467
Kimi K2.6 10.0 10.0 100.0% 0 12.53s 3,977 5,269
Resolução de quebra-cabeças Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.6 7.7 10.0 66.7% 0 4.60s 531 637
Kimi K2.6 6.0 7.4 55.6% 1 25.59s 14,140 17,868
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.6 10.0 10.0 100.0% 0 9.73s 861 329
Kimi K2.6 10.0 10.0 100.0% 0 8.92s 248 1,011
Conhecimentos gerais Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Claude Opus 4.6 3.0 10.0 0.0% 0 63.24s 8,045 2,452
Kimi K2.6 3.0 10.0 0.0% 0 130.27s 15,710 16,177

Comparação rápida

Trocar par de comparação