AI BENCHY Compare

LiquidAI: LFM2-24B-A2B vs Tencent: Hy3 preview

Last updated at: 2026-05-22

Metric	LFM2-24B-A2B LFM2-24B-A2B none Release: 2026-02-24	Hy3 preview Hy3 preview high Release: 2026-04-22

Metric	LFM2-24B-A2B LFM2-24B-A2B none Release: 2026-02-24	Hy3 preview Hy3 preview high Release: 2026-04-22
Score	4.2	8.0
Rank	#152	#22
Reliability	N/A	10.0
Consistency	9.0	9.5
Tests Correct
Attempt pass rate	18.8%	77.1%
Flaky tests	2	1
Total Runs	48	60
Cost per result	0.024	0.000
Total Cost	$0.001	$0.000
Input Price	$0.030 / 1M	$0.066 / 1M
Output Price	$0.120 / 1M	$0.260 / 1M
Output Tokens	1,185	216,503
Reasoning Tokens	0	0
Response Time (avg)	811ms	56.77s
Response Time (max)	2.88s	149.94s
Response Time (total)	11.35s	851.49s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
LFM2-24B-A2B	3.3	9.8	0.0%	0		471ms	490	0
Hy3 preview	8.9	10.0	100.0%	0		15.12s	6,839	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
LFM2-24B-A2B	3.0	10.0	0.0%	0		0ms	0	0
Hy3 preview	10.0	10.0	100.0%	0		113.09s	31,319	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
LFM2-24B-A2B	3.0	10.0	0.0%	0		714ms	219	0
Hy3 preview	6.5	10.0	50.0%	0		12.11s	4,323	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
LFM2-24B-A2B	5.9	7.2	55.6%	1		287ms	30	0
Hy3 preview	5.3	7.2	44.4%	1		109.04s	87,559	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
LFM2-24B-A2B	4.0	10.0	0.0%	0		395ms	72	0
Hy3 preview	0.0	0.0	0.0%	0		0ms	0	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
LFM2-24B-A2B	6.3	10.0	50.0%	0		1.09s	60	0
Hy3 preview	9.9	10.0	100.0%	0		34.02s	13,331	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
LFM2-24B-A2B	3.7	7.7	11.1%	1		1.69s	314	0
Hy3 preview	10.0	10.0	100.0%	0		29.74s	15,503	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
LFM2-24B-A2B	3.0	10.0	0.0%	0		0ms	0	0
Hy3 preview	10.0	10.0	100.0%	0		78.83s	10,370	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
LFM2-24B-A2B	-	-	-	-	-	-	-	-
Hy3 preview	10.0	10.0	100.0%	0		99.76s	38,167	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
LFM2-24B-A2B	-	-	-	-	-	-	-	-
Hy3 preview	3.0	10.0	0.0%	0		47.71s	9,092	0

Quick Compare

Switch Comparison Pair

Claude Opus 4.7mediumvsGPT-5.5low GPT-5.4mediumvsQwen3.7 Maxnone GPT-5.2 ChatnonevsQwen3.5 Plus 2026-04-20medium Gemini 3.1 Flash LiteminimalvsKimi K2.5medium CobuddymediumFree AvailablevsOwl Alphanone GPT-5.4 NanononevsGLM 4.7 Flashmedium DeepSeek V4 FlashhighFree AvailablevsKimi K2.6medium Mistral Small 4mediumvsGrok 4.20none GPT-5.3 ChatnonevsMiMo-V2.5medium Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5-Promedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5 Plus 2026-04-20medium Gemini 3.1 Flash LitelowvsGLM 5.1medium