Navegação
AI BENCHY
Advertise here

AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Qwen: Qwen3.6 Plus

Resumo

Comparação benchmark Claude Opus 4.8 vs Qwen3.6 Plus: Qwen3.6 Plus lidera na pontuação média com 7.8 vs 7.7. Qwen3.6 Plus tem menor custo de benchmark com $0.294 vs $1.270. Claude Opus 4.8 é mais rápido com 10.83s vs 30.70s, com taxas de acerto de 79.4% vs 69.8%.

Modelo recomendado: Qwen3.6 Plus - Tem a melhor pontuação aqui (7.8) e custa cerca de 4.3x menos que Claude Opus 4.8.

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-06-30

Métrica Claude Opus 4.8 Claude Opus 4.8 low Lançamento: 2026-05-28 Qwen3.6 Plus Qwen3.6 Plus medium Lançamento: 2026-04-20
Pontuação 7.7 7.8
Posição #38 #31
Confiabilidade 10.0 10.0
Consistência 8.8 9.3
Testes corretos
Taxa de acerto por tentativa 79.4% 69.8%
Testes instáveis 3 2
Execuções totais 63 63
Custo por resultado 8.466 0.831
Custo total $1.270 $0.294
Preço de entrada $5.000 / 1M $0.325 / 1M
Preço de saída $25.000 / 1M $1.950 / 1M
Total de tokens de entrada 60,946 41,565
Tokens de saída 31,771 1,853
Tokens de raciocínio 6,831 141,973
Tempo de resposta (médio) 10.83s 30.70s
Tempo de resposta (máx.) 127.97s 201.68s
Tempo de resposta (total) 227.39s 613.99s

Geração showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#38 Claude Opus 4.8

low
Custo
$0.031
Tempo
14.1s
Tokens
1,345 tok

#31 Qwen3.6 Plus

medium
Custo
$0.024
Tempo
219.0s
Tokens
12,235 tok

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.8 10.0 10.0 100.0% 0 3.30s 834 793 371
Qwen3.6 Plus 10.0 10.0 100.0% 0 9.90s 672 207 7,557
Programação Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.8 6.6 4.6 77.8% 2 7.58s 10,590 3,637 809
Qwen3.6 Plus 6.1 7.8 44.4% 1 153.12s 7,098 58 50,586
Combinado Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.8 9.8 10.0 100.0% 0 20.84s 23,500 2,216 1,081
Qwen3.6 Plus 10.0 10.0 100.0% 0 34.95s 14,934 452 13,073
Análise e extração de dados Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.8 6.3 5.8 66.7% 1 2.27s 10,503 310 0
Qwen3.6 Plus 10.0 10.0 100.0% 0 14.95s 7,782 270 10,706
Específico do domínio Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.8 5.3 10.0 33.3% 0 45.53s 975 23,311 3,908
Qwen3.6 Plus 2.9 7.2 11.1% 1 29.59s 771 56 33,464
Inteligência geral Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.8 10.0 10.0 100.0% 0 2.55s 708 231 0
Qwen3.6 Plus 5.1 10.0 0.0% 0 27.05s 516 111 5,232
Seguimento de instruções Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.8 9.8 10.0 100.0% 0 2.78s 909 111 221
Qwen3.6 Plus 10.0 10.0 100.0% 0 7.54s 699 102 5,552
Resolução de quebra-cabeças Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.8 10.0 10.0 100.0% 0 3.01s 894 592 184
Qwen3.6 Plus 10.0 10.0 100.0% 0 6.34s 696 309 6,712
Chamada de ferramentas Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.8 10.0 10.0 100.0% 0 6.85s 11,775 370 35
Qwen3.6 Plus 10.0 10.0 100.0% 0 5.87s 8,193 267 1,330
Conhecimentos gerais Pontuação Consistência Taxa de acerto por tentativa Testes instáveis Testes corretos Tempo de resposta (médio) Tokens de entrada Tokens de saída Tokens de raciocínio
Claude Opus 4.8 3.0 10.0 0.0% 0 5.48s 258 200 222
Qwen3.6 Plus 3.0 10.0 0.0% 0 47.51s 204 21 7,761

Comparação rápida

Trocar par de comparação