AI BENCHY Compare

Elephant Alpha vs Qwen: Qwen3.5-9B

Benchmarks gerados a partir das suítes de teste do AI BENCHY em: 2026-04-23

Métrica	Elephant Alpha Elephant Alpha medium Lançamento: 2026-04-14	Qwen3.5-9B Qwen3.5-9B none Lançamento: 2026-03-02

Métrica	Elephant Alpha Elephant Alpha medium Lançamento: 2026-04-14	Qwen3.5-9B Qwen3.5-9B none Lançamento: 2026-03-02
Pontuação	5.2	4.8
Posição	#88	#98
Consistência	9.6	9.6
Testes corretos
Taxa de acerto por tentativa	29.6%	24.1%
Testes instáveis	1	1
Execuções totais	54	54
Custo por resultado	0.000	0.116
Custo total	$0.000	$0.005
Preço de entrada	$0.000 / 1M	$0.100 / 1M
Preço de saída	$0.000 / 1M	$0.150 / 1M
Tokens de saída	2,596	3,951
Tokens de raciocínio	0	0
Tempo de resposta (médio)	1.27s	1.47s
Tempo de resposta (máx.)	3.70s	5.91s
Tempo de resposta (total)	22.82s	26.43s

Melhores modelos por pontuação

Pontuação vs custo total

Tempo de resposta (médio)

Pontuação vs Tempo de resposta (médio)

Total de tokens de saída

Pontuação vs Total de tokens de saída

Detalhamento por categoria

Truques anti-IA	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Elephant Alpha	6.6	10.0	50.0%	0		1.19s	815	0
Qwen3.5-9B	3.1	9.9	0.0%	0		1.71s	582	0

Programação	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Elephant Alpha	5.1	3.3	33.3%	1		1.30s	365	0
Qwen3.5-9B	5.2	3.4	33.3%	1		5.69s	1,006	0

Combinado	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Elephant Alpha	3.0	10.0	0.0%	0		3.70s	562	0
Qwen3.5-9B	3.0	10.0	0.0%	0		5.91s	1,255	0

Análise e extração de dados	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Elephant Alpha	6.5	10.0	50.0%	0		979ms	246	0
Qwen3.5-9B	10.0	10.0	100.0%	0		847ms	249	0

Específico do domínio	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Elephant Alpha	3.0	10.0	0.0%	0		925ms	24	0
Qwen3.5-9B	3.0	10.0	0.0%	0		464ms	24	0

Inteligência geral	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Elephant Alpha	4.3	10.0	0.0%	0		920ms	105	0
Qwen3.5-9B	4.4	9.9	0.0%	0		552ms	99	0

Seguimento de instruções	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Elephant Alpha	9.8	10.0	100.0%	0		987ms	82	0
Qwen3.5-9B	6.5	10.0	50.0%	0		514ms	75	0

Resolução de quebra-cabeças	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Elephant Alpha	3.7	10.0	0.0%	0		867ms	166	0
Qwen3.5-9B	3.2	9.9	0.0%	0		683ms	388	0

Chamada de ferramentas	Pontuação	Consistência	Taxa de acerto por tentativa	Testes instáveis	Testes corretos	Tempo de resposta (médio)	Tokens de saída	Tokens de raciocínio
Elephant Alpha	3.0	10.0	0.0%	0		2.83s	231	0
Qwen3.5-9B	10.0	10.0	100.0%	0		1.27s	273	0

Comparação rápida

Trocar par de comparação

Elephant AlphamediumvsGrok 4.20none Mistral Small 4nonevsElephant Alphamedium gpt-oss-120bnoneDisponível grátisvsElephant Alphamedium Trinity Large PreviewnonevsElephant Alphamedium GPT-5.4 MininonevsElephant Alphamedium Ling 2.6 FlashnoneDisponível grátisvsElephant Alphamedium Elephant AlphamediumvsQwen3 Coder Nextnone Elephant AlphamediumvsMiMo-V2.5none Nemotron 3 SupernoneDisponível grátisvsElephant Alphamedium Qwen3.5-9BnonevsGLM 4.7 Flashmedium Elephant AlphamediumvsGLM 5 Turbonone Kimi K2.5nonevsElephant Alphamedium