#47

Grok 4.20 Multi-Agent Beta

X AI · Release: 2026-03-12 · x-ai/grok-4.20-multi-agent-beta::medium

4.9

Cost per result

97.178

Consistency

7.1

$4.859

Wrong Tests: 11

Attempt pass rate: 52.1%

Flaky tests

6

Flaky tests had mixed outcomes across runs (at least one pass and one fail).

Response Time (avg)

9.08s

Response Time (max): 35.28s

Response Time (total): 127.09s

Did not follow instructions: 4 Wrong answer: 3 API error: 2 Extra formatting: 2

Charts

Choose the first model, then click a second model to open a side-by-side page.

Top Models by Score

Avg Score vs Total Cost

Response Time (avg)

Avg Score vs Response Time (avg)

Total Output Tokens

Avg Score vs Total Output Tokens

Quick Compare

Grok 4.20 Multi-Agent BetamediumvsSeed-2.0-Litenone Grok 4.20 Multi-Agent BetamediumvsQwen3.5-122B-A10Bnone Grok 4.20 Multi-Agent BetamediumvsQwen3.5-35B-A3Bnone Grok 4.20 Multi-Agent Betamediumvsgpt-oss-120bmediumFree Available Grok 4.20 Multi-Agent BetamediumvsMiniMax M2.5medium Grok 4.20 Multi-Agent BetamediumvsGemini 3 Flash Previewmedium Grok 4.20 Multi-Agent BetamediumvsGemini 3.1 Pro Previewmedium Grok 4.20 Multi-Agent BetamediumvsStep 3.5 FlashmediumFree Available

Category Breakdown

Category	Avg Score	Consistency	Tests Correct
Anti-AI Tricks	4.0	4.4
Combined	10.0	10.0
Data parsing and extraction	9.9	10.0
Domain specific	10.0	7.2
General Intelligence	4.0	2.8
Instructions following	9.0	10.0
Puzzle Solving	6.3	5.1
Tool Calling	10.0	10.0

Compared models