#29

Grok 4.20 Beta

X AI प्रकाशन: 2026-03-12 चाचणी तारीख: 2026-04-11 01:19 x-ai/grok-4.20-beta::medium

(medium) (none)

सारांश

Grok 4.20 Beta AI BENCHY वर 8.0 स्कोर करते आणि #29 वर आहे. याची reliability लागू नाही, pass rate 74.1%, एकूण खर्च $0.633, आणि सरासरी response time 9.81s आहे.

संग्रहित मॉडेल: हे मॉडेल आता अपडेट केले जाणार नाही आणि नवीन चाचण्यांवर तपासले जाणार नाही.

ओळख नोंद

Grok 4.20 Beta हे xAI: Grok 4.20 ची प्रीव्ह्यू आवृत्ती होती.

स्कोअर

8.0

सुसंगतता

9.1

विश्वसनीयता

लागू नाही

एकूण खर्च (सध्याची किंमत)

$0.633

एकूण आउटपुट टोकन्स

93,477

एकूण इनपुट टोकन्स

इनपुट किंमत

$0.000 / 1M

आउटपुट किंमत

$0.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 6

प्रति प्रयत्न पास दर: 74.1%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

9.81s

प्रतिसाद वेळ (कमाल): 31.36s

प्रतिसाद वेळ (एकूण): 176.62s

सूचनांचे पालन केले नाही: 3 चुकीचे उत्तर: 3

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#29 Grok 4.20 Beta

medium

खर्च: $0.034
वेळ: 91.0s
टोकन्स: 13,523 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-05-06 14:15 पुन्हा चाचणी	6.0	लागू नाही	$0.750 ↑	तुलना करा
2026-05-06 14:15 पुन्हा चाचणी	8.5	लागू नाही	$0.750 ↑	तुलना करा
2026-05-06 14:15 पुन्हा चाचणी	8.2	लागू नाही	$0.633	तुलना करा
2026-05-06 14:15 पुन्हा चाचणी	8.2	लागू नाही	$0.633	तुलना करा
2026-05-06 14:15 सूट बदलला	8.2	लागू नाही	$0.633	तुलना करा
2026-04-11 01:19 पहिली नोंदलेली रन	8.0	लागू नाही	$0.633	सध्याची रन

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-04-11 01:19 · पहिली नोंदलेली रन	8.0	9.1	लागू नाही	12/18	2	93,477	$0.633	9.81s
2026-05-06 14:15 · पुन्हा चाचणी	8.2	9.1	लागू नाही	13/18	2	93,477	$0.633	9.81s
फरक	-0.2	0.0		-1	0	0	$0.000	0ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	8.7	7.9
कोडिंग	10.0	10.0
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	10.0
Samanya Buddhimatta	10.0	10.0
सूचनांचे पालन	8.3	10.0
कोडी सोडवणे	8.2	7.2
टूल कॉलिंग	3.0	10.0

Grok 4.20 Beta

Hamster playing table tennis

#29 Grok 4.20 Beta

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स