Navegação
AI BENCHY
Comparar Gráficos
❤️ Made by XCS
Your ad here

AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs Inception: Mercury 2

Comparar:

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-03-05

Métrica Anthropic: Claude Sonnet 4.6 none Lançamento: 2026-02-17 Inception: Mercury 2 medium Lançamento: 2026-02-24
Posição #25 #35
Pontuação média 6.9 5.4
Testes corretos
Consistência 10.0 8.3
Custo por resultado 2.460 0.622
Custo total $0.246 $0.044
Taxa de acerto por tentativa 66.7% 57.8%
Testes instáveis 0 3
common.totalAttempts 45 (15 x 3) 45 (15 x 3)
Tokens de saída 6,703 3,571
Tokens de raciocínio 0 45,379
Tempo de resposta (médio) 5.94s 2.47s
Tempo de resposta (máx.) 23.84s 14.63s
Tempo de resposta (total) 47.55s 34.56s

Melhores modelos por pontuação

Tempo de resposta (médio)

Pontuação vs custo total

Pontuação média vs Tempo de resposta (médio)

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Sonnet 4.6 4.0 10.0 33.3% 0 4.83s 1,199 0
Inception: Mercury 2 7.3 9.8 66.7% 0 1.30s 2,531 2,410
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Sonnet 4.6 9.0 10.0 100.0% 0 23.84s 3,766 0
Inception: Mercury 2 10.0 10.0 100.0% 0 3.28s 268 4,887
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Sonnet 4.6 9.9 10.0 100.0% 0 3.43s 252 0
Inception: Mercury 2 5.5 5.9 83.3% 1 1.11s 183 1,656
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Sonnet 4.6 7.0 10.0 66.7% 0 3.54s 413 0
Inception: Mercury 2 10.0 7.2 11.1% 1 6.48s 41 30,754
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Sonnet 4.6 5.5 10.0 50.0% 0 1.96s 90 0
Inception: Mercury 2 10.0 10.0 100.0% 0 1.07s 14 958
Puzzle Solving Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Sonnet 4.6 7.0 10.0 66.7% 0 2.92s 536 0
Inception: Mercury 2 1.7 7.5 22.2% 1 934ms 354 2,758
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Sonnet 4.6 10.0 10.0 100.0% 0 4.11s 447 0
Inception: Mercury 2 10.0 10.0 100.0% 0 1.89s 180 1,956

Comparação rápida

Trocar par de comparação