#15

Grok 4.20 Beta

X AI प्रकाशन: 2026-03-12 चाचणी तारीख: 2026-05-06 14:15 x-ai/grok-4.20-beta::medium

(medium) (none)

सारांश

Grok 4.20 Beta AI BENCHY वर 8.2 स्कोर करते आणि #15 वर आहे. याची reliability लागू नाही, pass rate 79.6%, एकूण खर्च $0.633, आणि सरासरी response time 9.81s आहे.

Grok 4.20 Beta खास का आहे: या score range साठी एकूण benchmark खर्च असामान्यपणे कमी आहे.

संग्रहित मॉडेल: हे मॉडेल आता अपडेट केले जाणार नाही आणि नवीन चाचण्यांवर तपासले जाणार नाही.

ओळख नोंद

Grok 4.20 Beta हे xAI: Grok 4.20 ची प्रीव्ह्यू आवृत्ती होती.

स्कोअर

8.2

सुसंगतता

9.1

विश्वसनीयता

लागू नाही

एकूण खर्च (सध्याची किंमत)

$0.633

एकूण आउटपुट टोकन्स

93,477

एकूण इनपुट टोकन्स

इनपुट किंमत

$0.000 / 1M

आउटपुट किंमत

$0.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 5

प्रति प्रयत्न पास दर: 79.6%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

9.81s

प्रतिसाद वेळ (कमाल): 31.36s

प्रतिसाद वेळ (एकूण): 176.62s

चुकीचे उत्तर: 4 सूचनांचे पालन केले नाही: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#15 Grok 4.20 Beta

medium

खर्च: $0.034
वेळ: 91.0s
टोकन्स: 13,523 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-05-06 14:15 पुन्हा चाचणी	6.0	लागू नाही	$0.750 ↑	तुलना करा
2026-05-06 14:15 पुन्हा चाचणी	8.5	लागू नाही	$0.750 ↑	तुलना करा
2026-05-06 14:15 पुन्हा चाचणी	8.2	लागू नाही	$0.633	तुलना करा
2026-05-06 14:15 पुन्हा चाचणी	8.2	लागू नाही	$0.633	सध्याची रन
2026-05-06 14:15 सूट बदलला	8.2	लागू नाही	$0.633	तुलना करा
2026-04-11 01:19 पहिली नोंदलेली रन	8.0	लागू नाही	$0.633	तुलना करा

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	8.7	7.9
कोडिंग	10.0	10.0
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	10.0
Samanya Buddhimatta	10.0	10.0
सूचनांचे पालन	9.8	10.0
कोडी सोडवणे	8.2	7.2
टूल कॉलिंग	3.0	10.0

Grok 4.20 Beta

Hamster playing table tennis

#15 Grok 4.20 Beta

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स