#196

Grok 4.20 Multi Agent Beta

X AI प्रकाशन: 2026-03-12 चाचणी तारीख: 2026-05-06 14:16 x-ai/grok-4.20-multi-agent-beta::medium

सारांश

Grok 4.20 Multi Agent Beta AI BENCHY वर 4.8 स्कोर करते आणि #196 वर आहे. याची reliability लागू नाही, pass rate 48.5%, एकूण खर्च $5.599, आणि सरासरी response time 9.69s आहे.

Grok 4.20 Multi Agent Beta खास का आहे: हे डेटा पार्सिंग आणि निष्कर्षण मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #1 आहे; तर सामान्य ज्ञान हा सर्वात कमकुवत भाग आहे, rank #13. हे असामान्यपणे जास्त reasoning tokens वापरते, ज्यामुळे runs हळू किंवा महाग होऊ शकतात.

संग्रहित मॉडेल: हे मॉडेल आता अपडेट केले जाणार नाही आणि नवीन चाचण्यांवर तपासले जाणार नाही.

स्कोअर

4.8

सुसंगतता

6.4

विश्वसनीयता

लागू नाही

एकूण खर्च (सध्याची किंमत)

$5.599 ↑ +11.2%

या किमतीवर चाचणी केली: $5.034

एकूण आउटपुट टोकन्स

600,042

एकूण इनपुट टोकन्स

721,952

इनपुट किंमत

$4.235 / 1M

आउटपुट किंमत

$4.235 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 10

प्रति प्रयत्न पास दर: 48.5%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

9.69s

प्रतिसाद वेळ (कमाल): 35.28s

प्रतिसाद वेळ (एकूण): 155.07s

चुकीचे उत्तर: 4 API त्रुटी: 2 अतिरिक्त फॉरमॅटिंग: 2 सूचनांचे पालन केले नाही: 2

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#196 Grok 4.20 Multi Agent Beta

medium

खर्च: $0.261
वेळ: 123.4s
टोकन्स: 199,344 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-05-06 14:16 पुन्हा चाचणी	4.8	लागू नाही	$5.599 ↑	सध्याची रन
2026-05-06 14:16 पुन्हा चाचणी	6.6	लागू नाही	$5.599 ↑	तुलना करा
2026-05-06 14:16 पुन्हा चाचणी	6.6	लागू नाही	$5.074	तुलना करा
2026-05-06 14:16 सूट बदलला	6.6	लागू नाही	$5.074	तुलना करा
2026-04-11 01:19 पहिली नोंदलेली रन	6.4	लागू नाही	$5.074	तुलना करा

किंमत इतिहास

OpenRouter मधील या मॉडेलचा ऐतिहासिक किंमत डेटा.

तारीख	इनपुट किंमत	आउटपुट किंमत
2026-06-04 15:40	$4.235 / 1M	$4.235 / 1M

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	6.9	5.8
कोडिंग	3.3	3.3
संयुक्त	1.5	5.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	2.9	7.2
Samanya Buddhimatta	5.8	2.8
सूचनांचे पालन	9.8	10.0
कोडी सोडवणे	6.7	7.9
टूल कॉलिंग	3.0	10.0
सामान्य ज्ञान	0.0	0.0

Grok 4.20 Multi Agent Beta

Hamster playing table tennis

#196 Grok 4.20 Multi Agent Beta

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स