AI BENCHY Compare

Hunter Alpha vs Qwen: Qwen3.5-9B

Last updated at: 2026-03-12

Metric	Hunter Alpha Hunter Alpha none Release: Unknown release date	Qwen3.5-9B Qwen3.5-9B medium Release: 2026-03-02

Metric	Hunter Alpha Hunter Alpha none Release: Unknown release date	Qwen3.5-9B Qwen3.5-9B medium Release: 2026-03-02
Rank	#50	#66
Avg Score	4.6	2.6
Consistency	8.0	7.4
Cost per result	0.000	0.779
Total Cost	$0.000	$0.024
Tests Correct
Attempt pass rate	52.1%	35.4%
Flaky tests	4	5
Total Runs	48	48
Output Tokens	2,272	17,930
Reasoning Tokens	0	139,706
Response Time (avg)	4.64s	71.44s
Response Time (max)	15.17s	226.38s
Response Time (total)	74.24s	928.77s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Avg Score vs Response Time (avg)

Total Output Tokens

Avg Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Hunter Alpha	1.3	7.4	22.2%	1		3.85s	773	0
Qwen3.5-9B	4.0	7.2	55.6%	1		31.54s	2,410	10,913

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Hunter Alpha	10.0	10.0	0.0%	0		15.17s	379	0
Qwen3.5-9B	10.0	10.0	0.0%	0		0ms	0	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Hunter Alpha	9.9	10.0	100.0%	0		8.49s	249	0
Qwen3.5-9B	5.0	5.6	33.3%	1		87.31s	1,383	32,113

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Hunter Alpha	4.0	10.0	33.3%	0		2.33s	27	0
Qwen3.5-9B	10.0	7.2	22.2%	1		137.75s	11,549	48,475

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Hunter Alpha	5.0	3.1	66.7%	1		2.71s	91	0
Qwen3.5-9B	10.0	1.6	33.3%	1		226.38s	0	30,695

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Hunter Alpha	5.0	10.0	50.0%	0		2.82s	69	0
Qwen3.5-9B	5.5	5.8	66.7%	1		17.15s	599	4,517

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Hunter Alpha	4.0	4.4	66.7%	2		3.06s	349	0
Qwen3.5-9B	10.0	10.0	0.0%	0		33.38s	1,545	11,844

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Hunter Alpha	10.0	10.0	100.0%	0		6.02s	335	0
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	444	1,149

Quick Compare

Switch Comparison Pair

MiniMax M2.5mediumvsHunter Alphanone Qwen3.5-9BmediumvsMiMo-V2-Flashnone Qwen3.5-9BmediumvsGrok 4.1 Fastnone Hunter AlphanonevsGrok 4.20 Multi-Agent Betamedium gpt-oss-120bmediumFree AvailablevsHunter Alphanone Mercury 2mediumvsHunter Alphanone Mercury 2nonevsQwen3.5-9Bmedium Nemotron 3 Super 120b A12bnoneFree AvailablevsQwen3.5-9Bmedium Hunter AlphanonevsQwen3.5-35B-A3Bmedium GPT-5 NanomediumvsHunter Alphanone Hunter AlphanonevsQwen3 Coder Nextmedium Nemotron 3 Super 120b A12bmediumFree AvailablevsHunter Alphanone