AI BENCHY
Advertise here
#107

Grok 4.20 Beta

X AI रिलीज़: 2026-03-12 परीक्षण किया गया: 2026-05-06 14:15 x-ai/grok-4.20-beta::none
(medium) (none)

सारांश

Grok 4.20 Beta AI BENCHY पर 5.8 स्कोर करता है और #107 पर है। इसकी reliability लागू नहीं, pass rate 37.0%, कुल लागत $0.087, और औसत response time 1.19s है।

Grok 4.20 Beta को अलग क्या बनाता है: यह पहेली समाधान में सबसे अलग दिखता है, जहाँ इसकी रैंक #1 है; जबकि निर्देश पालन इसकी सबसे कमजोर जगह है, जहाँ यह #10 पर है। यह समान मॉडलों की तुलना में काफ़ी तेज है।

संग्रहीत मॉडल: इस मॉडल को अब अपडेट नहीं किया जाएगा और नए परीक्षणों में टेस्ट नहीं किया जाएगा।

पहचान नोट

Grok 4.20 Beta, xAI: Grok 4.20 का प्रीव्यू संस्करण था।

संगति

9.6

विश्वसनीयता

लागू नहीं

कुल लागत (वर्तमान कीमत)

$0.087 ↓ -4.8%

परीक्षण के समय: $0.091

कुल आउटपुट टोकन

1,657

कुल इनपुट टोकन

40,597

इनपुट कीमत

$2.041 / 1M

आउटपुट कीमत

$2.041 / 1M

सही परीक्षण

गलत टेस्ट: 12

प्रति प्रयास पास दर: 37.0%

अस्थिर टेस्ट

1

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

1.19s

प्रतिक्रिया समय (अधिकतम): 6.48s

प्रतिक्रिया समय (कुल): 21.43s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#107 Grok 4.20 Beta

none
Invalid SVG
Cost
$0.004
Time
8.5s
Tokens
1,672 tok

रन इतिहास

परीक्षण किया गया स्कोर विश्वसनीयता सही परीक्षण कुल लागत तुलना करें
2026-05-06 14:15 दोबारा परीक्षण 5.8 लागू नहीं $0.087 वर्तमान रन
2026-05-06 14:15 दोबारा परीक्षण 5.5 लागू नहीं $0.091 तुलना करें
2026-05-06 14:15 दोबारा परीक्षण 5.5 लागू नहीं $0.091 तुलना करें
2026-05-06 14:15 सूट बदला गया 5.5 लागू नहीं $0.091 तुलना करें
2026-04-11 01:19 पहला दर्ज रन 5.3 लागू नहीं $0.091 तुलना करें

रन तुलना

रनस्कोरसंगतिविश्वसनीयतासही परीक्षणअस्थिर टेस्टकुल आउटपुट टोकनकुल इनपुट टोकनकुल लागतप्रतिक्रिया समय (औसत)
2026-05-06 14:15 · वर्तमान रन5.89.6लागू नहीं6/1811,65740,597$0.0871.19s
2026-04-11 01:19 · पहला दर्ज रन5.39.2लागू नहीं4/1821,5910$0.0911.19s
अंतर+0.5+0.4+2-1+66+40597-$0.004+3ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

कीमत का इतिहास

OpenRouter से इस मॉडल का ऐतिहासिक मूल्य डेटा।

तारीख इनपुट कीमत आउटपुट कीमत
2026-06-04 15:40 $2.041 / 1M $2.041 / 1M

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

श्रेणी स्कोर संगति सही परीक्षण
एंटी-एआई ट्रिक्स 4.0 8.4
कोडिंग 5.5 10.0
संयुक्त 3.0 10.0
डेटा पार्सिंग और निष्कर्षण 10.0 10.0
डोमेन-विशिष्ट 3.0 10.0
Samanya Buddhimatta 5.0 10.0
निर्देश पालन 6.3 10.0
पहेली समाधान 7.7 10.0
टूल कॉलिंग 10.0 10.0

तुलना किए गए मॉडल