Anthropic: Claude Opus 4.6 vs Qwen: Qwen3.6 Max Preview
Resumo
Comparação benchmark Claude Opus 4.6 vs Qwen3.6 Max Preview: Claude Opus 4.6 lidera na pontuação média com 7.0 vs 6.9. Qwen3.6 Max Preview tem menor custo de benchmark com $0.075 vs $2.053. Qwen3.6 Max Preview é mais rápido com 3.30s vs 25.89s, com taxas de acerto de 61.9% vs 58.7%.
Modelo recomendado: Qwen3.6 Max Preview - A pontuação fica perto da melhor aqui (6.9 vs 7.0) e custa cerca de 27.7x menos que Claude Opus 4.6.
Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-06-10
7.0Pontuação média em todos os testes de benchmark.…
6.9Pontuação média em todos os testes de benchmark.…
Posição
#70
#75
Confiabilidade
10.0Pontuação de sucesso na primeira tentativa: 10.0 significa nenhum erro reexecutável da API alvo ou de limite de taxa antes de chamadas bem-sucedidas; falhas registradas reduzem a pontuação.…
10.0Pontuação de sucesso na primeira tentativa: 10.0 significa nenhum erro reexecutável da API alvo ou de limite de taxa antes de chamadas bem-sucedidas; falhas registradas reduzem a pontuação.…
Consistência
8.8A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
9.2A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
Testes corretos
Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 5Resposta incorreta: 3Não seguiu as instruções: 1Tempo de resposta (médio)25.89sTempo de resposta (máx.)83.40sTempo de resposta (total)362.49sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 10Tempo de resposta (médio)3.30sTempo de resposta (máx.)20.51sTempo de resposta (total)69.40sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
Taxa de acerto por tentativa
61.9%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
58.7%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
Testes instáveis
3Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
2Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Execuções totais
63Execuções totais…
63Execuções totais…
Custo por resultado
17.103Mostra o custo médio por resposta correta no benchmark, em centavos (quanto menor, melhor).…
0.824Mostra o custo médio por resposta correta no benchmark, em centavos (quanto menor, melhor).…
Custo total
$2.053Custo total (preço atual)…
$0.075Custo total (preço atual)…
Preço de entrada
$5.000 / 1MPreço de entrada…
$1.040 / 1MPreço de entrada…
Preço de saída
$25.000 / 1MPreço de saída…
$6.240 / 1MPreço de saída…
Total de tokens de entrada
53,227Total de tokens de entrada…
42,509Total de tokens de entrada…
Tokens de saída
47,446Tokens de saída…
4,779Tokens de saída…
Tokens de raciocínio
24,000Tokens de raciocínio…
0Tokens de raciocínio…
Tempo de resposta (médio)
25.89sTempo de resposta (médio)…
3.30sTempo de resposta (médio)…
Tempo de resposta (máx.)
83.40sTempo de resposta (máx.)…
20.51sTempo de resposta (máx.)…
Tempo de resposta (total)
362.49sTempo de resposta (total)…
69.40sTempo de resposta (total)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
6.4Pontuação média em todos os testes de benchmark.…
5.8A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
66.7%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
2Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 2Tempo de resposta (médio)7.45sTempo de resposta (máx.)11.88sTempo de resposta (total)14.90sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
5.2Pontuação média em todos os testes de benchmark.…
7.9A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
41.7%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)2.63sTempo de resposta (máx.)5.57sTempo de resposta (total)10.53sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
5.7Pontuação média em todos os testes de benchmark.…
7.1A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
44.4%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 1Não seguiu as instruções: 1Tempo de resposta (médio)30.10sTempo de resposta (máx.)35.63sTempo de resposta (total)90.31sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3.8Pontuação média em todos os testes de benchmark.…
7.3A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
22.2%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
1Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 3Tempo de resposta (médio)3.12sTempo de resposta (máx.)3.45sTempo de resposta (total)9.35sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)76.66sTempo de resposta (máx.)76.66sTempo de resposta (total)76.66sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)20.51sTempo de resposta (máx.)20.51sTempo de resposta (total)20.51sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)7.37sTempo de resposta (máx.)7.37sTempo de resposta (total)7.37sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.87sTempo de resposta (máx.)3.54sTempo de resposta (total)5.74sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Formatação extra: 2Resposta incorreta: 1Tempo de resposta (médio)83.40sTempo de resposta (máx.)83.40sTempo de resposta (total)83.40sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
7.7Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
66.7%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.22sTempo de resposta (máx.)1.25sTempo de resposta (total)3.67sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.04sTempo de resposta (máx.)5.04sTempo de resposta (total)5.04sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
4.3Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.62sTempo de resposta (máx.)1.62sTempo de resposta (total)1.62sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.43sTempo de resposta (máx.)2.43sTempo de resposta (total)2.43sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
9.8Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)1.40sTempo de resposta (máx.)1.46sTempo de resposta (total)2.79sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
7.7Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
66.7%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)4.71sTempo de resposta (máx.)4.75sTempo de resposta (total)9.41sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)2.65sTempo de resposta (máx.)3.59sTempo de resposta (total)7.94sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)9.73sTempo de resposta (máx.)9.73sTempo de resposta (total)9.73sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
10.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
100.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Sem respostas com falha.Tempo de resposta (médio)5.27sTempo de resposta (máx.)5.27sTempo de resposta (total)5.27sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)63.24sTempo de resposta (máx.)63.24sTempo de resposta (total)63.24sUm teste é totalmente aprovado apenas quando todas as execuções passam.…
3.0Pontuação média em todos os testes de benchmark.…
10.0A consistência reflete a estabilidade entre execuções (10 = muito consistente, mesmo que consistentemente errado).…
0.0%Taxa de acerto por tentativa = tentativas aprovadas / tentativas totais em todas as execuções.…
0Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).…
Um teste é totalmente aprovado apenas quando todas as execuções passam.Resposta incorreta: 1Tempo de resposta (médio)1.97sTempo de resposta (máx.)1.97sTempo de resposta (total)1.97sUm teste é totalmente aprovado apenas quando todas as execuções passam.…