Navegação
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Qwen: Qwen3.5-122B-A10B

Resumo

Comparação benchmark Claude Opus 4.8 vs Qwen3.5-122B-A10B: A pontuação média está praticamente empatada em 7.7 vs 7.7. Qwen3.5-122B-A10B tem menor custo de benchmark com $0.588 vs $1.270. Claude Opus 4.8 é mais rápido com 10.83s vs 42.49s, com taxas de acerto de 79.4% vs 73.0%.

Modelo recomendado: Claude Opus 4.8 - Tem a melhor pontuação aqui (7.7) e responde cerca de 3.9x mais rápido que Qwen3.5-122B-A10B.

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-06-30

Métrica Claude Opus 4.8 Claude Opus 4.8 low Lançamento: 2026-05-28 Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium Lançamento: 2026-02-24
Pontuação 7.7 7.7
Posição #38 #37
Confiabilidade 10.0 10.0
Consistência 8.8 8.8
Testes corretos
Taxa de acerto por tentativa 79.4% 73.0%
Testes instáveis 3 3
Execuções totais 63 63
Custo por resultado 8.466 5.235
Custo total $1.270 $0.588
Preço de entrada $5.000 / 1M $0.260 / 1M
Preço de saída $25.000 / 1M $2.080 / 1M
Total de tokens de entrada 60,946 41,832
Tokens de saída 31,771 26,187
Tokens de raciocínio 6,831 251,028
Tempo de resposta (médio) 10.83s 42.49s
Tempo de resposta (máx.) 127.97s 168.16s
Tempo de resposta (total) 227.39s 892.30s

Geração showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#38 Claude Opus 4.8

low
Custo
$0.031
Tempo
14.1s
Tokens
1,345 tok

#37 Qwen3.5-122B-A10B

medium
Custo
$0.019
Tempo
48.7s
Tokens
6,034 tok

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.8 10.0 10.0 100.0% 0 3.30s 834 793 371
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 9.75s 672 269 16,835
Programação Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.8 6.6 4.6 77.8% 2 7.58s 10,590 3,637 809
Qwen3.5-122B-A10B 6.0 7.2 55.6% 1 114.48s 7,630 8,057 82,578
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.8 9.8 10.0 100.0% 0 20.84s 23,500 2,216 1,081
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 107.79s 14,947 483 11,337
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.8 6.3 5.8 66.7% 1 2.27s 10,503 310 0
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 23.41s 7,782 270 16,558
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.8 5.3 10.0 33.3% 0 45.53s 975 23,311 3,908
Qwen3.5-122B-A10B 2.9 7.2 11.1% 1 63.40s 771 15,537 64,889
Inteligência geral Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.8 10.0 10.0 100.0% 0 2.55s 708 231 0
Qwen3.5-122B-A10B 3.4 2.2 33.3% 1 34.11s 344 66 7,592
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.8 9.8 10.0 100.0% 0 2.78s 909 111 221
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 9.88s 593 77 7,372
Resolução de quebra-cabeças Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.8 10.0 10.0 100.0% 0 3.01s 894 592 184
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 17.89s 696 284 27,575
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.8 10.0 10.0 100.0% 0 6.85s 11,775 370 35
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 4.60s 8,193 322 1,226
Conhecimentos gerais Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.8 3.0 10.0 0.0% 0 5.48s 258 200 222
Qwen3.5-122B-A10B 3.0 10.0 0.0% 0 52.87s 204 822 15,066

Comparação rápida

Trocar par de comparação