AI BENCHY Compare

Poolside: Laguna XS 2.1 vs xAI: Grok 4.20

Summary

Laguna XS 2.1 vs Grok 4.20 benchmark comparison: Laguna XS 2.1 leads on average score with 5.3 vs 4.4. Laguna XS 2.1 has the lower benchmark cost at $0.003 vs $0.057. Laguna XS 2.1 is faster at 722ms vs 1.11s, with pass rates of 31.8% vs 28.6%.

Recommended model: Laguna XS 2.1 - It has the best score here (5.3), while costing about 19.6x less than Grok 4.20.

Last updated at: 2026-07-02

Metric	Laguna XS 2.1 Laguna XS 2.1 none Release: 2026-07-02 Free Available	Grok 4.20 Grok 4.20 none Release: 2026-03-31

Metric	Laguna XS 2.1 Laguna XS 2.1 none Release: 2026-07-02 Free Available	Grok 4.20 Grok 4.20 none Release: 2026-03-31
Score	5.3	4.4
Rank	#128	#160
Reliability	10.0	N/A
Consistency	9.0	8.5
Tests Correct
Attempt pass rate	31.8%	28.6%
Flaky tests	3	0
Total Runs	63	54
Cost per result	0.058	1.570
Total Cost	$0.003	$0.057
Input Price	$0.060 / 1M	$1.250 / 1M
Output Price	$0.120 / 1M	$2.500 / 1M
Total Input Tokens	41,148	41,313
Output Tokens	3,451	1,923
Reasoning Tokens	0	0
Response Time (avg)	722ms	1.11s
Response Time (max)	2.30s	6.04s
Response Time (total)	15.17s	19.96s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#128 Laguna XS 2.1

none

Cost: $0.001
Time: 27.6s
Tokens: 4,344 tok

#160 xAI: Grok 4.20

none

Cost: $0.004
Time: 6.5s
Tokens: 1,367 tok

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Laguna XS 2.1	5.3	8.3	33.3%	1		755ms	774	1,015	0
Grok 4.20	4.8	10.0	25.0%	0		501ms	1,986	267	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Laguna XS 2.1	4.3	7.8	22.2%	1		623ms	7,995	562	0
Grok 4.20	1.1	3.1	0.0%	0		1.22s	1,074	312	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Laguna XS 2.1	3.0	10.0	0.0%	0		1.76s	14,197	402	0
Grok 4.20	3.0	10.0	0.0%	0		6.04s	17,673	282	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Laguna XS 2.1	10.0	10.0	100.0%	0		768ms	7,734	240	0
Grok 4.20	10.0	10.0	100.0%	0		522ms	7,749	207	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Laguna XS 2.1	5.3	10.0	33.3%	0		364ms	834	14	0
Grok 4.20	3.0	10.0	0.0%	0		687ms	1,746	325	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Laguna XS 2.1	5.0	10.0	0.0%	0		529ms	537	128	0
Grok 4.20	4.8	10.0	0.0%	0		659ms	819	83	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Laguna XS 2.1	3.8	5.8	33.3%	1		364ms	638	50	0
Grok 4.20	6.3	10.0	50.0%	0		445ms	1,350	60	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Laguna XS 2.1	3.0	10.0	0.0%	0		1.01s	771	730	0
Grok 4.20	5.3	10.0	33.3%	0		473ms	1,671	198	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Laguna XS 2.1	10.0	10.0	100.0%	0		1.36s	7,413	300	0
Grok 4.20	10.0	10.0	100.0%	0		4.63s	7,245	189	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Laguna XS 2.1	3.0	10.0	0.0%	0		254ms	255	10	0
Grok 4.20	0.0	0.0	0.0%	0		0ms	0	0	0

Quick Compare

Switch Comparison Pair

Grok 4.20nonevsGLM 4.7 Flashmedium MiniMax M2.7mediumvsLaguna XS 2.1noneFree Available Mistral Small 4mediumvsLaguna XS 2.1noneFree Available Qwen3 Coder NextmediumvsGrok 4.20none MiniMax M2.5mediumvsGrok 4.20none CobuddymediumvsLaguna XS 2.1noneFree Available North Mini CodemediumFree AvailablevsLaguna XS 2.1noneFree Available CobuddymediumvsGrok 4.20none Qwen3.5-9BmediumvsGrok 4.20none MiniMax M2.5mediumvsLaguna XS 2.1noneFree Available Laguna XS 2.1noneFree AvailablevsQwen3 Coder Nextmedium Mistral Small 4mediumvsGrok 4.20none