AI BENCHY Compare

DeepSeek: DeepSeek V3.2 vs Owl Alpha

Last updated at: 2026-04-30

Metric	DeepSeek V3.2 DeepSeek V3.2 none Release: 2025-12-01	Owl Alpha Owl Alpha none Release: 2026-04-30

Metric	DeepSeek V3.2 DeepSeek V3.2 none Release: 2025-12-01	Owl Alpha Owl Alpha none Release: 2026-04-30
Score	6.0	6.0
Rank	#85	#87
Reliability	N/A	10.0
Consistency	8.6	9.1
Tests Correct
Attempt pass rate	46.3%	46.3%
Flaky tests	3	2
Total Runs	52	54
Cost per result	0.225	0.000
Total Cost	$0.016	$0.000
Input Price	$0.252 / 1M	$0.000 / 1M
Output Price	$0.378 / 1M	$0.000 / 1M
Output Tokens	8,378	1,671
Reasoning Tokens	0	0
Response Time (avg)	12.07s	7.07s
Response Time (max)	115.89s	32.27s
Response Time (total)	217.28s	127.23s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	3.2	9.8	0.0%	0		7.63s	1,419	0
Owl Alpha	3.4	7.9	16.7%	1		2.78s	57	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	2.4	1.3	33.3%	1		7.63s	553	0
Owl Alpha	10.0	10.0	100.0%	0		32.27s	450	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	6.5	10.0	0.0%	0		115.89s	2,887	0
Owl Alpha	3.0	10.0	0.0%	0		21.74s	315	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	6.3	5.8	66.7%	1		9.42s	1,710	0
Owl Alpha	10.0	10.0	100.0%	0		3.60s	246	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	3.0	10.0	0.0%	0		1.52s	18	0
Owl Alpha	5.3	10.0	33.3%	0		3.00s	27	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	10.0	10.0	100.0%	0		2.86s	67	0
Owl Alpha	4.3	10.0	0.0%	0		4.61s	80	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	10.0	10.0	100.0%	0		1.52s	66	0
Owl Alpha	6.4	10.0	50.0%	0		2.63s	63	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	8.5	7.5	88.9%	1		7.37s	1,136	0
Owl Alpha	5.9	7.2	55.6%	1		4.43s	202	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	10.0	10.0	100.0%	0		11.85s	522	0
Owl Alpha	10.0	10.0	100.0%	0		22.78s	231	0

Quick Compare

Switch Comparison Pair

gpt-oss-120bmediumFree AvailablevsOwl Alphanone DeepSeek V3.2nonevsLaguna Xs.2mediumFree Available DeepSeek V3.2nonevsgpt-oss-120bmediumFree Available DeepSeek V3.2nonevsOwl Alphamedium Owl AlphanonevsLaguna Xs.2mediumFree Available Mistral Small 4mediumvsOwl Alphanone DeepSeek V3.2nonevsLaguna M.1mediumFree Available MiniMax M2.5mediumFree AvailablevsOwl Alphanone DeepSeek V3.2nonevsMistral Small 4medium Owl AlphanonevsLaguna M.1mediumFree Available DeepSeek V3.2nonevsMiniMax M2.5mediumFree Available DeepSeek V3.2nonevsGPT-5 Nanomedium