#18

Grok 4.20 Beta

X AI प्रकाशन: 2026-03-12 चाचणी तारीख: 2026-05-06 14:15 x-ai/grok-4.20-beta::medium

(medium) (none)

सारांश

Grok 4.20 Beta AI BENCHY वर 8.2 स्कोर करते आणि #18 वर आहे. याची reliability लागू नाही, pass rate 79.6%, एकूण खर्च $0.633, आणि सरासरी response time 9.81s आहे.

Grok 4.20 Beta खास का आहे: या score range साठी एकूण benchmark खर्च असामान्यपणे कमी आहे.

संग्रहित मॉडेल: हे मॉडेल आता अपडेट केले जाणार नाही आणि नवीन चाचण्यांवर तपासले जाणार नाही.

ओळख नोंद

Grok 4.20 Beta हे xAI: Grok 4.20 ची प्रीव्ह्यू आवृत्ती होती.

स्कोअर

8.2

सुसंगतता

9.1

विश्वसनीयता

लागू नाही

एकूण खर्च (सध्याची किंमत)

$0.633

एकूण आउटपुट टोकन्स

93,477

एकूण इनपुट टोकन्स

इनपुट किंमत

$0.000 / 1M

आउटपुट किंमत

$0.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 5

प्रति प्रयत्न पास दर: 79.6%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

9.81s

प्रतिसाद वेळ (कमाल): 31.36s

प्रतिसाद वेळ (एकूण): 176.62s

चुकीचे उत्तर: 4 सूचनांचे पालन केले नाही: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#18 Grok 4.20 Beta

medium

खर्च: $0.034
वेळ: 91.0s
टोकन्स: 13,523 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-05-06 14:15 पुन्हा चाचणी	6.0	लागू नाही	$0.750 ↑	तुलना करा
2026-05-06 14:15 पुन्हा चाचणी	8.5	लागू नाही	$0.750 ↑	तुलना करा
2026-05-06 14:15 पुन्हा चाचणी	8.2	लागू नाही	$0.633	तुलना करा
2026-05-06 14:15 पुन्हा चाचणी	8.2	लागू नाही	$0.633	तुलना करा
2026-05-06 14:15 सूट बदलला	8.2	लागू नाही	$0.633	सध्याची रन
2026-04-11 01:19 पहिली नोंदलेली रन	8.0	लागू नाही	$0.633	तुलना करा

या रनमध्ये वेगळा बेंचमार्क सूट वापरला गेला. ऐतिहासिक बदल वाचताना सूटमधील बदल लक्षात घ्या.

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-05-06 14:15 · सूट बदलला	8.2	9.1	लागू नाही	13/18	2	93,477	$0.633	9.81s
2026-04-11 01:19 · पहिली नोंदलेली रन	8.0	9.1	लागू नाही	12/18	2	93,477	$0.633	9.81s
फरक	+0.2	0.0		+1	0	0	$0.000	0ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	8.7	7.9
कोडिंग	10.0	10.0
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	10.0
Samanya Buddhimatta	10.0	10.0
सूचनांचे पालन	9.8	10.0
कोडी सोडवणे	8.2	7.2
टूल कॉलिंग	3.0	10.0

Grok 4.20 Beta

Hamster playing table tennis

#18 Grok 4.20 Beta

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स