AI BENCHY Compare

Laguna M.1 vs xAI: Grok 4.20

Last updated at: 2026-04-29

Metric	Laguna M.1 Laguna M.1 none Release: 2026-04-28 Free Available	Grok 4.20 Grok 4.20 none Release: 2026-03-31

Metric	Laguna M.1 Laguna M.1 none Release: 2026-04-28 Free Available	Grok 4.20 Grok 4.20 none Release: 2026-03-31
Score	5.1	5.2
Rank	#117	#108
Reliability	9.9	N/A
Consistency	8.7	9.5
Tests Correct
Attempt pass rate	33.3%	29.6%
Flaky tests	3	1
Total Runs	54	54
Cost per result	0.000	1.889
Total Cost	$0.000	$0.095
Input Price	$0.000 / 1M	$2.000 / 1M
Output Price	$0.000 / 1M	$6.000 / 1M
Output Tokens	2,870	1,967
Reasoning Tokens	0	0
Response Time (avg)	2.79s	1.11s
Response Time (max)	15.42s	6.04s
Response Time (total)	50.24s	20.02s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Laguna M.1	3.4	7.9	16.7%	1		1.23s	485	0
Grok 4.20	4.8	10.0	25.0%	0		501ms	267	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Laguna M.1	7.5	3.8	66.7%	1		2.93s	543	0
Grok 4.20	3.4	9.3	0.0%	0		1.22s	312	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Laguna M.1	3.0	10.0	0.0%	0		4.32s	622	0
Grok 4.20	3.0	10.0	0.0%	0		6.04s	282	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Laguna M.1	10.0	10.0	100.0%	0		3.37s	246	0
Grok 4.20	10.0	10.0	100.0%	0		522ms	207	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Laguna M.1	3.6	7.2	22.2%	1		5.50s	33	0
Grok 4.20	3.0	10.0	0.0%	0		687ms	325	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Laguna M.1	4.0	10.0	0.0%	0		3.08s	212	0
Grok 4.20	4.8	10.0	0.0%	0		659ms	83	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Laguna M.1	6.3	10.0	50.0%	0		683ms	80	0
Grok 4.20	4.8	10.0	0.0%	0		455ms	60	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Laguna M.1	3.2	10.0	0.0%	0		951ms	340	0
Grok 4.20	5.3	7.4	44.4%	1		487ms	242	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Laguna M.1	10.0	10.0	100.0%	0		7.54s	309	0
Grok 4.20	10.0	10.0	100.0%	0		4.63s	189	0

Quick Compare

Switch Comparison Pair

Nemotron 3 Nano Omni 30b A3b ReasoningmediumFree AvailablevsGrok 4.20none Elephant AlphamediumvsGrok 4.20none MiniMax M2.7mediumvsGrok 4.20none Nemotron 3 Nano Omni 30b A3b ReasoningmediumFree AvailablevsLaguna M.1noneFree Available Elephant AlphamediumvsLaguna M.1noneFree Available MiniMax M2.7mediumvsLaguna M.1noneFree Available Laguna M.1noneFree AvailablevsQwen3 Coder Nextmedium Mistral Small 4mediumvsGrok 4.20none Laguna M.1noneFree AvailablevsGLM 4.7 Flashmedium MiniMax M2.5mediumFree AvailablevsGrok 4.20none Qwen3 Coder NextmediumvsGrok 4.20none Mistral Small 4mediumvsLaguna M.1noneFree Available