#40
Qwen
Lançamento: 2026-04-20
Testado em: 2026-05-21 23:53
qwen/qwen3.5-plus-20260420::medium
(medium)
(none)
7.7
Consistência
8.7
10.0
$0.363
Total de tokens de saída
152,508
Preço de entrada
$0.300 / 1M
Preço de saída
$1.800 / 1M
Testes instáveis
3
Testes instáveis tiveram resultados mistos entre execuções (pelo menos um acerto e uma falha).
43.65s
Tempo de resposta (máx.): 189.38s
Tempo de resposta (total): 872.90s
Histórico de execuções
| Testado em | Pontuação | Confiabilidade | Testes corretos | Custo total | Comparar |
|---|---|---|---|---|---|
| 2026-05-21 23:53 Suite alterada | 7.6 | 9.6 | $0.363 | Execução atual | |
| 2026-05-08 14:34 Suite alterada | 7.8 | 9.6 | $0.305 | Comparar | |
| 2026-05-08 14:34 Suite alterada | 7.8 | 9.6 | $0.305 | Comparar | |
| 2026-04-27 23:09 Execução inicial | 8.2 | 9.7 | $0.269 | Comparar |
Esta execução usou uma suite de benchmark diferente. Considere as mudanças na suite ao analisar a evolução histórica.
Comparação de execuções
| Execução | Pontuação | Consistência | Confiabilidade | Testes corretos | Testes instáveis | Total de tokens de saída | Custo total | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|---|---|
| 2026-05-21 23:53 · Execução atual | 7.7 | 8.7 | 10.0 | 13/20 | 3 | 152,508 | $0.363 | 43.65s |
| 2026-05-08 14:34 · Suite alterada | 7.8 | 9.1 | 9.6 | 13/19 | 2 | 121,204 | $0.305 | 35.96s |
| Diferença | -0.1 | -0.4 | +0.4 | 0 | +1 | +31304 | +$0.058 | +7686ms |
Estas duas execuções usaram suites de benchmark diferentes, então as diferenças refletem tanto mudanças do modelo quanto da suite.
Gráficos
Escolha o primeiro modelo e depois clique em um segundo modelo para abrir uma página lado a lado.
Pontuação vs Custo total
Tempo de resposta (médio)
Pontuação vs Tempo de resposta (médio)
Total de tokens de saída
Pontuação vs Total de tokens de saída
Comparação rápida
Qwen3.5 Plus 2026-04-20mediumvsGLM 5 TurbomediumQwen3.5 Plus 2026-04-20mediumvsGPT-5.2 ChatnoneQwen3.5 Plus 2026-04-20mediumvsGPT-5.4mediumQwen3.5 Plus 2026-04-20mediumvsGemma 4 26B A4BmediumDisponível grátisQwen3.5 Plus 2026-04-20mediumvsQwen3.7 MaxnoneQwen3.5 Plus 2026-04-20mediumvsQwen3.6 35B A3BmediumQwen3.5 Plus 2026-04-20mediumvsGemini 3 Flash PreviewmediumQwen3.5 Plus 2026-04-20mediumvsGemini 3.5 FlashhighQwen3.5 Plus 2026-04-20mediumvsRing-2.6-1TmediumQwen3.5 Plus 2026-04-20mediumvsGemini 3.5 Flashlow
Detalhamento por categoria
| Categoria | Pontuação | Consistência | Testes corretos |
|---|---|---|---|
| Truques anti-IA | 10.0 | 10.0 | |
| Programação | 6.6 | 6.0 | |
| Combinado | 10.0 | 10.0 | |
| Análise e extração de dados | 10.0 | 10.0 | |
| Específico do domínio | 2.9 | 7.2 | |
| Inteligência geral | 4.9 | 9.6 | |
| Seguimento de instruções | 10.0 | 10.0 | |
| Resolução de quebra-cabeças | 8.2 | 7.2 | |
| Chamada de ferramentas | 10.0 | 10.0 | |
| Conhecimentos gerais | 3.0 | 10.0 |