AI BENCHY Compare

Hunter Alpha vs Qwen: Qwen3.5-27B

Last updated at: 2026-03-12

Metric	Hunter Alpha Hunter Alpha none Release: Unknown release date	Qwen3.5-27B Qwen3.5-27B none Release: 2026-02-24

Metric	Hunter Alpha Hunter Alpha none Release: Unknown release date	Qwen3.5-27B Qwen3.5-27B none Release: 2026-02-24
Rank	#50	#46
Avg Score	4.6	4.9
Consistency	8.0	9.1
Cost per result	0.000	0.302
Total Cost	$0.000	$0.016
Tests Correct
Attempt pass rate	52.1%	37.5%
Flaky tests	4	2
Total Runs	48	48
Output Tokens	2,272	3,161
Reasoning Tokens	0	0
Response Time (avg)	4.64s	1.75s
Response Time (max)	15.17s	9.39s
Response Time (total)	74.24s	28.05s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Avg Score vs Response Time (avg)

Total Output Tokens

Avg Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Hunter Alpha	1.3	7.4	22.2%	1		3.85s	773	0
Qwen3.5-27B	4.0	10.0	33.3%	0		796ms	264	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Hunter Alpha	10.0	10.0	0.0%	0		15.17s	379	0
Qwen3.5-27B	10.0	1.6	33.3%	1		9.39s	1,461	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Hunter Alpha	9.9	10.0	100.0%	0		8.49s	249	0
Qwen3.5-27B	9.9	10.0	100.0%	0		1.43s	243	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Hunter Alpha	4.0	10.0	33.3%	0		2.33s	27	0
Qwen3.5-27B	10.0	10.0	0.0%	0		540ms	15	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Hunter Alpha	5.0	3.1	66.7%	1		2.71s	91	0
Qwen3.5-27B	5.0	10.0	0.0%	0		2.51s	126	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Hunter Alpha	5.0	10.0	50.0%	0		2.82s	69	0
Qwen3.5-27B	4.5	10.0	0.0%	0		815ms	69	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Hunter Alpha	4.0	4.4	66.7%	2		3.06s	349	0
Qwen3.5-27B	6.3	7.9	55.6%	1		1.37s	680	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Hunter Alpha	10.0	10.0	100.0%	0		6.02s	335	0
Qwen3.5-27B	10.0	10.0	100.0%	0		3.54s	303	0

Quick Compare

Switch Comparison Pair

Qwen3.5-27BnonevsGrok 4.20 Multi-Agent Betamedium MiniMax M2.5mediumvsHunter Alphanone gpt-oss-120bmediumFree AvailablevsQwen3.5-27Bnone MiniMax M2.5mediumvsQwen3.5-27Bnone Hunter AlphanonevsGrok 4.20 Multi-Agent Betamedium Mercury 2mediumvsQwen3.5-27Bnone gpt-oss-120bmediumFree AvailablevsHunter Alphanone GPT-5 NanomediumvsQwen3.5-27Bnone Mercury 2mediumvsHunter Alphanone Nemotron 3 Super 120b A12bmediumFree AvailablevsQwen3.5-27Bnone Hunter AlphanonevsQwen3.5-35B-A3Bmedium GPT-5 NanomediumvsHunter Alphanone