#118

Grok 4.20

X AI प्रकाशन: 2026-03-31 चाचणी तारीख: 2026-05-06 14:16 x-ai/grok-4.20::none

(medium) (none)

सारांश

Grok 4.20 AI BENCHY वर 5.4 स्कोर करते आणि #118 वर आहे. याची reliability लागू नाही, pass rate 35.2%, एकूण खर्च $0.095, आणि सरासरी response time 1.11s आहे.

Grok 4.20 खास का आहे: समान मॉडेल्सच्या तुलनेत हे लक्षणीय वेगवान आहे.

ओळख नोंद

Grok 4.20 Beta हे Grok 4.20 ची प्रीव्ह्यू आवृत्ती होती.

स्कोअर

5.4

सुसंगतता

9.5

विश्वसनीयता

लागू नाही

एकूण खर्च (सध्याची किंमत)

$0.095

एकूण आउटपुट टोकन्स

1,967

एकूण इनपुट टोकन्स

इनपुट किंमत

$1.250 / 1M

आउटपुट किंमत

$2.500 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 12

प्रति प्रयत्न पास दर: 35.2%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

1.11s

प्रतिसाद वेळ (कमाल): 6.04s

प्रतिसाद वेळ (एकूण): 20.02s

चुकीचे उत्तर: 10 अतिरिक्त फॉरमॅटिंग: 1 अवैध टूल कॉल: 1

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#118 xAI: Grok 4.20

none

खर्च: $0.004
वेळ: 6.5s
टोकन्स: 1,367 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-05-06 14:16 पुन्हा चाचणी	5.4	लागू नाही	$0.057 ↓	तुलना करा
2026-05-06 14:16 पुन्हा चाचणी	5.4	लागू नाही	$0.095	तुलना करा
2026-05-06 14:16 पुन्हा चाचणी	5.4	लागू नाही	$0.095	सध्याची रन
2026-05-06 14:16 सूट बदलला	5.4	लागू नाही	$0.095	तुलना करा
2026-04-11 01:44 पहिली नोंदलेली रन	5.2	लागू नाही	$0.095	तुलना करा

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-05-06 14:16 · पुन्हा चाचणी	5.4	9.5	लागू नाही	6/18	1	1,967	$0.095	1.11s
2026-04-11 01:44 · पहिली नोंदलेली रन	5.2	9.5	लागू नाही	5/18	1	1,967	$0.095	1.11s
फरक	+0.2	0.0		+1	0	0	$0.000	0ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

Grok 4.20nonevsQwen3.5-122B-A10Bnone Grok 4.20nonevsMiniMax M2.7medium Grok 4.20nonevsGPT-5.4 Mininone Grok 4.20nonevsQwen3.6 35B A3Bnone Grok 4.20nonevsLaguna XS 2.1noneमोफत उपलब्ध Grok 4.20nonevsMistral Small 4none Grok 4.20nonevsGemini 3.5 Flashhigh Grok 4.20nonevsGemini 3 Flash Previewmedium Grok 4.20nonevsNemotron 3 Ultra 550b A55bmediumमोफत उपलब्ध Grok 4.20nonevsGPT-5.5low

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	4.8	10.0
कोडिंग	3.4	9.3
संयुक्त	3.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	3.0	10.0
Samanya Buddhimatta	4.8	10.0
सूचनांचे पालन	6.3	10.0
कोडी सोडवणे	5.3	7.2
टूल कॉलिंग	10.0	10.0

Grok 4.20

Hamster playing table tennis

#118 xAI: Grok 4.20

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स