AI BENCHY
Advertise here
#14

Grok 4.20 Beta

X AI रिलीज़: 2026-03-12 परीक्षण किया गया: 2026-05-06 14:15 x-ai/grok-4.20-beta::medium
(medium) (none)

सारांश

Grok 4.20 Beta AI BENCHY पर 8.5 स्कोर करता है और #14 पर है। इसकी reliability लागू नहीं, pass rate 81.5%, कुल लागत $0.750, और औसत response time 9.75s है।

संग्रहीत मॉडल: इस मॉडल को अब अपडेट नहीं किया जाएगा और नए परीक्षणों में टेस्ट नहीं किया जाएगा।

पहचान नोट

Grok 4.20 Beta, xAI: Grok 4.20 का प्रीव्यू संस्करण था।

संगति

9.5

विश्वसनीयता

लागू नहीं

कुल लागत (वर्तमान कीमत)

$0.750 ↑ +18.9%

परीक्षण के समय: $0.631

कुल आउटपुट टोकन

93,212

कुल इनपुट टोकन

35,955

इनपुट कीमत

$5.805 / 1M

आउटपुट कीमत

$5.805 / 1M

सही परीक्षण

गलत टेस्ट: 4

प्रति प्रयास पास दर: 81.5%

अस्थिर टेस्ट

1

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

9.75s

प्रतिक्रिया समय (अधिकतम): 31.36s

प्रतिक्रिया समय (कुल): 175.48s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#14 Grok 4.20 Beta

medium
Cost
$0.034
Time
91.0s
Tokens
13,523 tok

रन इतिहास

परीक्षण किया गया स्कोर विश्वसनीयता सही परीक्षण कुल लागत तुलना करें
2026-05-06 14:15 दोबारा परीक्षण 8.5 लागू नहीं $0.750 वर्तमान रन
2026-05-06 14:15 दोबारा परीक्षण 8.2 लागू नहीं $0.633 तुलना करें
2026-05-06 14:15 दोबारा परीक्षण 8.2 लागू नहीं $0.633 तुलना करें
2026-05-06 14:15 सूट बदला गया 8.2 लागू नहीं $0.633 तुलना करें
2026-04-11 01:19 पहला दर्ज रन 8.0 लागू नहीं $0.633 तुलना करें

रन तुलना

रनस्कोरसंगतिविश्वसनीयतासही परीक्षणअस्थिर टेस्टकुल आउटपुट टोकनकुल इनपुट टोकनकुल लागतप्रतिक्रिया समय (औसत)
2026-05-06 14:15 · वर्तमान रन8.59.5लागू नहीं14/18193,21235,955$0.7509.75s
2026-04-11 01:19 · पहला दर्ज रन8.09.1लागू नहीं12/18293,4770$0.6339.81s
अंतर+0.5+0.4+2-1-265+35955+$0.118-63ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

कीमत का इतिहास

OpenRouter से इस मॉडल का ऐतिहासिक मूल्य डेटा।

तारीख इनपुट कीमत आउटपुट कीमत
2026-06-04 15:40 $5.805 / 1M $5.805 / 1M

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

श्रेणी स्कोर संगति सही परीक्षण
एंटी-एआई ट्रिक्स 8.7 7.9
कोडिंग 10.0 10.0
संयुक्त 10.0 10.0
डेटा पार्सिंग और निष्कर्षण 10.0 10.0
डोमेन-विशिष्ट 5.3 10.0
Samanya Buddhimatta 10.0 10.0
निर्देश पालन 9.8 10.0
पहेली समाधान 10.0 10.0
टूल कॉलिंग 3.0 10.0

तुलना किए गए मॉडल