#142

Grok 4.20 Beta

X AI रिलीज़: 2026-03-12 परीक्षण किया गया: 2026-05-06 14:15 x-ai/grok-4.20-beta::medium

(medium) (none)

सारांश

Grok 4.20 Beta AI BENCHY पर 6.0 स्कोर करता है और #142 पर है। इसकी reliability लागू नहीं, pass rate 66.7%, कुल लागत $0.750, और औसत response time 9.75s है।

Grok 4.20 Beta को अलग क्या बनाता है: यह Samanya Buddhimatta में सबसे अलग दिखता है, जहाँ इसकी रैंक #1 है; जबकि सामान्य ज्ञान इसकी सबसे कमजोर जगह है, जहाँ यह #14 पर है।

संग्रहीत मॉडल: इस मॉडल को अब अपडेट नहीं किया जाएगा और नए परीक्षणों में टेस्ट नहीं किया जाएगा।

पहचान नोट

Grok 4.20 Beta, xAI: Grok 4.20 का प्रीव्यू संस्करण था।

स्कोर

6.0

संगति

7.8

विश्वसनीयता

लागू नहीं

कुल लागत (वर्तमान कीमत)

$0.750 ↑ +18.9%

परीक्षण के समय: $0.631

कुल आउटपुट टोकन

93,212

कुल इनपुट टोकन

35,955

इनपुट कीमत

$5.805 / 1M

आउटपुट कीमत

$5.805 / 1M

सही परीक्षण

गलत टेस्ट: 4

प्रति प्रयास पास दर: 66.7%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

9.75s

प्रतिक्रिया समय (अधिकतम): 31.36s

प्रतिक्रिया समय (कुल): 175.48s

गलत उत्तर: 3 निर्देशों का पालन नहीं किया: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#142 Grok 4.20 Beta

medium

लागत: $0.034
समय: 91.0s
टोकन: 13,523 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-05-06 14:15 दोबारा परीक्षण	6.0	लागू नहीं	$0.750 ↑	वर्तमान रन
2026-05-06 14:15 दोबारा परीक्षण	8.5	लागू नहीं	$0.750 ↑	तुलना करें
2026-05-06 14:15 दोबारा परीक्षण	8.2	लागू नहीं	$0.633	तुलना करें
2026-05-06 14:15 दोबारा परीक्षण	8.2	लागू नहीं	$0.633	तुलना करें
2026-05-06 14:15 सूट बदला गया	8.2	लागू नहीं	$0.633	तुलना करें
2026-04-11 01:19 पहला दर्ज रन	8.0	लागू नहीं	$0.633	तुलना करें

कीमत का इतिहास

OpenRouter से इस मॉडल का ऐतिहासिक मूल्य डेटा।

तारीख	इनपुट कीमत	आउटपुट कीमत
2026-06-04 15:40	$5.805 / 1M	$5.805 / 1M

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	8.7	7.9
कोडिंग	3.3	3.3
संयुक्त	5.0	5.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	10.0
Samanya Buddhimatta	10.0	10.0
निर्देश पालन	9.8	10.0
पहेली समाधान	10.0	10.0
टूल कॉलिंग	3.0	10.0
सामान्य ज्ञान	0.0	0.0

Grok 4.20 Beta

Hamster playing table tennis

#142 Grok 4.20 Beta

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

तुलना किए गए मॉडल