#81

Grok 4.20 Multi Agent Beta

X AI प्रकाशन: 2026-03-12 चाचणी तारीख: 2026-05-06 14:16 x-ai/grok-4.20-multi-agent-beta::medium

सारांश

Grok 4.20 Multi Agent Beta AI BENCHY वर 6.6 स्कोर करते आणि #81 वर आहे. याची reliability लागू नाही, pass rate 63.0%, एकूण खर्च $5.074, आणि सरासरी response time 9.80s आहे.

Grok 4.20 Multi Agent Beta खास का आहे: हे कोडिंग मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #1 आहे; तर संयुक्त हा सर्वात कमकुवत भाग आहे, rank #17. हे असामान्यपणे जास्त reasoning tokens वापरते, ज्यामुळे runs हळू किंवा महाग होऊ शकतात.

संग्रहित मॉडेल: हे मॉडेल आता अपडेट केले जाणार नाही आणि नवीन चाचण्यांवर तपासले जाणार नाही.

स्कोअर

6.6

सुसंगतता

7.4

विश्वसनीयता

लागू नाही

एकूण खर्च (सध्याची किंमत)

$5.074

एकूण आउटपुट टोकन्स

608,704

एकूण इनपुट टोकन्स

इनपुट किंमत

$0.000 / 1M

आउटपुट किंमत

$0.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 10

प्रति प्रयत्न पास दर: 63.0%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

9.80s

प्रतिसाद वेळ (कमाल): 35.28s

प्रतिसाद वेळ (एकूण): 156.75s

चुकीचे उत्तर: 4 API त्रुटी: 2 अतिरिक्त फॉरमॅटिंग: 2 सूचनांचे पालन केले नाही: 2

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#81 Grok 4.20 Multi Agent Beta

medium

खर्च: $0.261
वेळ: 123.4s
टोकन्स: 199,344 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-05-06 14:16 पुन्हा चाचणी	4.8	लागू नाही	$5.599 ↑	तुलना करा
2026-05-06 14:16 पुन्हा चाचणी	6.6	लागू नाही	$5.599 ↑	तुलना करा
2026-05-06 14:16 पुन्हा चाचणी	6.6	लागू नाही	$5.074	सध्याची रन
2026-05-06 14:16 सूट बदलला	6.6	लागू नाही	$5.074	तुलना करा
2026-04-11 01:19 पहिली नोंदलेली रन	6.4	लागू नाही	$5.074	तुलना करा

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-05-06 14:16 · पुन्हा चाचणी	6.6	7.4	लागू नाही	8/18	6	608,704	$5.074	9.80s
2026-05-06 14:16 · सूट बदलला	6.6	7.4	लागू नाही	8/18	6	608,704	$5.074	9.80s
फरक	0.0	0.0		0	0	0	$0.000	0ms

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	6.9	5.8
कोडिंग	10.0	10.0
संयुक्त	3.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	2.9	7.2
Samanya Buddhimatta	5.8	2.8
सूचनांचे पालन	9.8	10.0
कोडी सोडवणे	7.2	5.1
टूल कॉलिंग	3.0	10.0

Grok 4.20 Multi Agent Beta

Hamster playing table tennis

#81 Grok 4.20 Multi Agent Beta

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स