Navegação
AI BENCHY
Comparar Gráficos Metodologia
❤️ Made by XCS
Your ad here

AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Google: Gemini 3.1 Flash Lite Preview

Comparar:

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-03-05

Métrica Anthropic: Claude Opus 4.6 medium Lançamento: 2026-02-05 Google: Gemini 3.1 Flash Lite Preview low Lançamento: 2026-03-03
Pontuação média 6.4 7.6
Posição #30 #12
Testes corretos
Consistência 8.9 10.0
Custo por resultado 14.411 0.170
Custo total $1.297 $0.019
Taxa de acerto por tentativa 64.4% 73.3%
Testes instáveis 2 0
common.totalRuns 45 (15 x 3) 45 (15 x 3)
Tokens de saída 26,066 1,542
Tokens de raciocínio 17,071 6,888
Tempo de resposta (médio) 25.08s 3.49s
Tempo de resposta (máx.) 83.40s 11.91s
Tempo de resposta (total) 200.67s 52.29s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação média vs Tempo de resposta (médio)

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Opus 4.6 4.0 4.4 55.6% 2 11.88s 897 1,000
Google: Gemini 3.1 Flash Lite Preview 7.0 10.0 66.7% 0 2.18s 456 1,224
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 76.66s 8,178 5,194
Google: Gemini 3.1 Flash Lite Preview 10.0 10.0 0.0% 0 11.91s 225 762
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Opus 4.6 9.9 10.0 100.0% 0 7.37s 691 757
Google: Gemini 3.1 Flash Lite Preview 9.9 10.0 100.0% 0 3.00s 291 696
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Opus 4.6 10.0 10.0 0.0% 0 83.40s 14,642 8,687
Google: Gemini 3.1 Flash Lite Preview 4.0 10.0 33.3% 0 2.36s 18 1,212
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 2.43s 266 467
Google: Gemini 3.1 Flash Lite Preview 10.0 10.0 100.0% 0 1.49s 72 753
Puzzle Solving Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Opus 4.6 7.0 10.0 66.7% 0 4.60s 531 637
Google: Gemini 3.1 Flash Lite Preview 10.0 10.0 100.0% 0 2.76s 243 1,248
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de saída Tokens de raciocínio
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 9.73s 861 329
Google: Gemini 3.1 Flash Lite Preview 10.0 10.0 100.0% 0 9.54s 237 993

Comparação rápida

Trocar par de comparação