AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com
#85

Grok 4.20 Multi Agent Beta

X AI प्रकाशन: 2026-03-12 चाचणी तारीख: 2026-05-06 14:16 x-ai/grok-4.20-multi-agent-beta::medium

सारांश

Grok 4.20 Multi Agent Beta AI BENCHY वर 6.6 स्कोर करते आणि #85 वर आहे. याची reliability लागू नाही, pass rate 59.3%, एकूण खर्च $5.599, आणि सरासरी response time 9.69s आहे.

Grok 4.20 Multi Agent Beta खास का आहे: हे कोडिंग मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #1 आहे; तर टूल कॉलिंग हा सर्वात कमकुवत भाग आहे, rank #9. हे असामान्यपणे जास्त reasoning tokens वापरते, ज्यामुळे runs हळू किंवा महाग होऊ शकतात.

संग्रहित मॉडेल: हे मॉडेल आता अपडेट केले जाणार नाही आणि नवीन चाचण्यांवर तपासले जाणार नाही.

सुसंगतता

7.9

विश्वसनीयता

लागू नाही

एकूण खर्च (सध्याची किंमत)

$5.599 ↑ +11.2%

या किमतीवर चाचणी केली: $5.034

एकूण आउटपुट टोकन्स

600,042

एकूण इनपुट टोकन्स

721,952

इनपुट किंमत

$4.235 / 1M

आउटपुट किंमत

$4.235 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 10

प्रति प्रयत्न पास दर: 59.3%

अस्थिर चाचण्या

5

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

9.69s

प्रतिसाद वेळ (कमाल): 35.28s

प्रतिसाद वेळ (एकूण): 155.07s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#85 Grok 4.20 Multi Agent Beta

medium
Cost
$0.261
Time
123.4s
Tokens
199,344 tok

रन इतिहास

चाचणी तारीख स्कोअर विश्वसनीयता बरोबर चाचण्या एकूण खर्च तुलना करा
2026-05-06 14:16 पुन्हा चाचणी 6.6 लागू नाही $5.599 सध्याची रन
2026-05-06 14:16 पुन्हा चाचणी 6.6 लागू नाही $5.074 तुलना करा
2026-05-06 14:16 सूट बदलला 6.6 लागू नाही $5.074 तुलना करा
2026-04-11 01:19 पहिली नोंदलेली रन 6.4 लागू नाही $5.074 तुलना करा

रन तुलना

रनस्कोअरसुसंगतताविश्वसनीयताबरोबर चाचण्याअस्थिर चाचण्याएकूण आउटपुट टोकन्सएकूण इनपुट टोकन्सएकूण खर्चप्रतिसाद वेळ (सरासरी)
2026-05-06 14:16 · सध्याची रन6.67.9लागू नाही8/185600,042721,952$5.5999.69s
2026-04-11 01:19 · पहिली नोंदलेली रन6.47.4लागू नाही7/186608,7040$5.0749.80s
फरक+0.1+0.5+1-1-8662+721952+$0.526-105ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

किंमत इतिहास

OpenRouter मधील या मॉडेलचा ऐतिहासिक किंमत डेटा.

तारीख इनपुट किंमत आउटपुट किंमत
2026-06-04 15:40 $4.235 / 1M $4.235 / 1M

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

श्रेणी स्कोअर सुसंगतता बरोबर चाचण्या
अँटी-एआय युक्त्या 6.9 5.8
कोडिंग 10.0 10.0
संयुक्त 3.0 10.0
डेटा पार्सिंग आणि निष्कर्षण 10.0 10.0
डोमेन-विशिष्ट 2.9 7.2
Samanya Buddhimatta 5.8 2.8
सूचनांचे पालन 9.8 10.0
कोडी सोडवणे 6.7 7.9
टूल कॉलिंग 3.0 10.0

तुलना केलेली मॉडेल्स