AI BENCHY
Advertise here
#116

Grok 4.20 Beta

X AI रिलीज़: 2026-03-12 परीक्षण किया गया: 2026-05-06 14:15 x-ai/grok-4.20-beta::none
(medium) (none)

सारांश

Grok 4.20 Beta AI BENCHY पर 5.5 स्कोर करता है और #116 पर है। इसकी reliability लागू नहीं, pass rate 35.2%, कुल लागत $0.091, और औसत response time 1.19s है।

Grok 4.20 Beta को अलग क्या बनाता है: यह समान मॉडलों की तुलना में काफ़ी तेज है।

संग्रहीत मॉडल: इस मॉडल को अब अपडेट नहीं किया जाएगा और नए परीक्षणों में टेस्ट नहीं किया जाएगा।

पहचान नोट

Grok 4.20 Beta, xAI: Grok 4.20 का प्रीव्यू संस्करण था।

संगति

9.2

विश्वसनीयता

लागू नहीं

कुल आउटपुट टोकन

1,591

कुल इनपुट टोकन

0

इनपुट कीमत

$0.000 / 1M

आउटपुट कीमत

$0.000 / 1M

सही परीक्षण

गलत टेस्ट: 13

प्रति प्रयास पास दर: 35.2%

अस्थिर टेस्ट

2

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

1.19s

प्रतिक्रिया समय (अधिकतम): 6.48s

प्रतिक्रिया समय (कुल): 21.37s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#116 Grok 4.20 Beta

none
Invalid SVG
Cost
$0.004
Time
8.5s
Tokens
1,672 tok

रन इतिहास

परीक्षण किया गया स्कोर विश्वसनीयता सही परीक्षण कुल लागत तुलना करें
2026-05-06 14:15 दोबारा परीक्षण 5.8 लागू नहीं $0.087 तुलना करें
2026-05-06 14:15 दोबारा परीक्षण 5.5 लागू नहीं $0.091 तुलना करें
2026-05-06 14:15 दोबारा परीक्षण 5.5 लागू नहीं $0.091 तुलना करें
2026-05-06 14:15 सूट बदला गया 5.5 लागू नहीं $0.091 वर्तमान रन
2026-04-11 01:19 पहला दर्ज रन 5.3 लागू नहीं $0.091 तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रनस्कोरसंगतिविश्वसनीयतासही परीक्षणअस्थिर टेस्टकुल आउटपुट टोकनकुल इनपुट टोकनकुल लागतप्रतिक्रिया समय (औसत)
2026-05-06 14:15 · सूट बदला गया5.59.2लागू नहीं5/1821,5910$0.0911.19s
2026-05-06 14:15 · दोबारा परीक्षण5.59.2लागू नहीं5/1821,5910$0.0911.19s
अंतर0.00.00000$0.0000ms

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

श्रेणी स्कोर संगति सही परीक्षण
एंटी-एआई ट्रिक्स 4.0 8.4
कोडिंग 5.5 10.0
संयुक्त 3.0 10.0
डेटा पार्सिंग और निष्कर्षण 10.0 10.0
डोमेन-विशिष्ट 3.0 10.0
Samanya Buddhimatta 5.0 10.0
निर्देश पालन 6.3 10.0
पहेली समाधान 5.9 7.2
टूल कॉलिंग 10.0 10.0

तुलना किए गए मॉडल