#47

Grok 4.20 Multi-Agent Beta

X AI · रिलीज़: 2026-03-12 · x-ai/grok-4.20-multi-agent-beta::medium

औसत स्कोर

4.9

प्रति परिणाम लागत

97.178

संगति

7.1

कुल लागत

$4.859

सही परीक्षण

गलत टेस्ट: 11

प्रति प्रयास पास दर: 52.1%

अस्थिर टेस्ट

6

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

9.08s

प्रतिक्रिया समय (अधिकतम): 35.28s

प्रतिक्रिया समय (कुल): 127.09s

निर्देशों का पालन नहीं किया: 4 गलत उत्तर: 3 API त्रुटि: 2 अतिरिक्त फॉर्मेटिंग: 2

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

स्कोर के अनुसार शीर्ष मॉडल

औसत स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

औसत स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

औसत स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

Grok 4.20 Multi-Agent BetamediumvsSeed-2.0-Litenone Grok 4.20 Multi-Agent BetamediumvsQwen3.5-122B-A10Bnone Grok 4.20 Multi-Agent BetamediumvsQwen3.5-35B-A3Bnone Grok 4.20 Multi-Agent Betamediumvsgpt-oss-120bmediumनिःशुल्क उपलब्ध Grok 4.20 Multi-Agent BetamediumvsMiniMax M2.5medium Grok 4.20 Multi-Agent BetamediumvsGemini 3 Flash Previewmedium Grok 4.20 Multi-Agent BetamediumvsGemini 3.1 Pro Previewmedium Grok 4.20 Multi-Agent BetamediumvsStep 3.5 Flashmediumनिःशुल्क उपलब्ध

श्रेणी विवरण

श्रेणी	औसत स्कोर	संगति	सही परीक्षण
एंटी-एआई ट्रिक्स	4.0	4.4
संयुक्त	10.0	10.0
डेटा पार्सिंग और निष्कर्षण	9.9	10.0
डोमेन-विशिष्ट	10.0	7.2
Samanya Buddhimatta	4.0	2.8
निर्देश पालन	9.0	10.0
पहेली समाधान	6.3	5.1
टूल कॉलिंग	10.0	10.0

तुलना किए गए मॉडल