#52

Grok 4.20

X AI प्रकाशन: 2026-03-31 चाचणी तारीख: 2026-04-11 01:44 x-ai/grok-4.20::medium

(medium) (none)

सारांश

Grok 4.20 AI BENCHY वर 7.0 स्कोर करते आणि #52 वर आहे. याची reliability लागू नाही, pass rate 66.7%, एकूण खर्च $0.743, आणि सरासरी response time 10.33s आहे.

ओळख नोंद

Grok 4.20 Beta हे Grok 4.20 ची प्रीव्ह्यू आवृत्ती होती.

स्कोअर

7.0

सुसंगतता

7.8

विश्वसनीयता

लागू नाही

एकूण खर्च (सध्याची किंमत)

$0.743

एकूण आउटपुट टोकन्स

111,626

एकूण इनपुट टोकन्स

इनपुट किंमत

$2.000 / 1M

आउटपुट किंमत

$6.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 9

प्रति प्रयत्न पास दर: 66.7%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

10.33s

प्रतिसाद वेळ (कमाल): 29.87s

प्रतिसाद वेळ (एकूण): 185.87s

सूचनांचे पालन केले नाही: 4 चुकीचे उत्तर: 3 API त्रुटी: 1 अतिरिक्त फॉरमॅटिंग: 1

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#52 xAI: Grok 4.20

medium

खर्च: $0.041
वेळ: 110.3s
टोकन्स: 16,336 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-06-04 14:17 नवीन चाचणी जोडली	7.1	10.0	$0.609 ↓	तुलना करा
2026-05-22 00:32 सूट बदलला	6.7	10.0	$0.832	तुलना करा
2026-05-08 15:32 सूट बदलला	6.9	10.0	$0.756	तुलना करा
2026-04-11 01:44 पहिली नोंदलेली रन	7.0	लागू नाही	$0.743	सध्याची रन

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-04-11 01:44 · पहिली नोंदलेली रन	7.0	7.8	लागू नाही	9/18	5	111,626	$0.743	10.33s
2026-05-08 15:32 · सूट बदलला	6.9	8.3	10.0	10/19	4	130,017	$0.756	14.53s
फरक	+0.1	-0.5		-1	+1	-18391	-$0.014	-4203ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

Grok 4.20mediumvsSeed-2.0-Minimedium Grok 4.20mediumvsGemini 3 Flash Previewlow Grok 4.20mediumvsDeepSeek V3.2medium Grok 4.20mediumvsGemini 3.5 Flashhigh Grok 4.20mediumvsGemini 3 Flash Previewmedium Grok 4.20mediumvsNemotron 3 Ultra 550b A55bmediumमोफत उपलब्ध Grok 4.20mediumvsGPT-5.5low

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	8.2	7.9
कोडिंग	4.3	1.1
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	10.0
Samanya Buddhimatta	5.8	2.8
सूचनांचे पालन	7.3	5.9
कोडी सोडवणे	6.4	7.7
टूल कॉलिंग	3.0	10.0

Grok 4.20

Hamster playing table tennis

#52 xAI: Grok 4.20

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स