AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com
#116

Grok 4.20 Beta

X AI रिलीज़: 2026-03-12 परीक्षण किया गया: 2026-05-06 14:15 x-ai/grok-4.20-beta::none
(medium) (none)

सारांश

Grok 4.20 Beta AI BENCHY पर 5.5 स्कोर करता है और #116 पर है। इसकी reliability लागू नहीं, pass rate 35.2%, कुल लागत $0.091, और औसत response time 1.19s है।

Grok 4.20 Beta को अलग क्या बनाता है: यह समान मॉडलों की तुलना में काफ़ी तेज है।

संग्रहीत मॉडल: इस मॉडल को अब अपडेट नहीं किया जाएगा और नए परीक्षणों में टेस्ट नहीं किया जाएगा।

पहचान नोट

Grok 4.20 Beta, xAI: Grok 4.20 का प्रीव्यू संस्करण था।

संगति

9.2

विश्वसनीयता

लागू नहीं

कुल आउटपुट टोकन

1,591

कुल इनपुट टोकन

0

इनपुट कीमत

$0.000 / 1M

आउटपुट कीमत

$0.000 / 1M

सही परीक्षण

गलत टेस्ट: 13

प्रति प्रयास पास दर: 35.2%

अस्थिर टेस्ट

2

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

1.19s

प्रतिक्रिया समय (अधिकतम): 6.48s

प्रतिक्रिया समय (कुल): 21.37s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#116 Grok 4.20 Beta

none
Invalid SVG
Cost
$0.004
Time
8.5s
Tokens
1,672 tok

रन इतिहास

परीक्षण किया गया स्कोर विश्वसनीयता सही परीक्षण कुल लागत तुलना करें
2026-05-06 14:15 दोबारा परीक्षण 5.8 लागू नहीं $0.087 तुलना करें
2026-05-06 14:15 दोबारा परीक्षण 5.5 लागू नहीं $0.091 तुलना करें
2026-05-06 14:15 दोबारा परीक्षण 5.5 लागू नहीं $0.091 तुलना करें
2026-05-06 14:15 सूट बदला गया 5.5 लागू नहीं $0.091 वर्तमान रन
2026-04-11 01:19 पहला दर्ज रन 5.3 लागू नहीं $0.091 तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रनस्कोरसंगतिविश्वसनीयतासही परीक्षणअस्थिर टेस्टकुल आउटपुट टोकनकुल इनपुट टोकनकुल लागतप्रतिक्रिया समय (औसत)
2026-05-06 14:15 · सूट बदला गया5.59.2लागू नहीं5/1821,5910$0.0911.19s
2026-05-06 14:15 · दोबारा परीक्षण5.89.6लागू नहीं6/1811,65740,597$0.0871.19s
अंतर-0.3-0.4-1+1-66-40597+$0.004-3ms

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

श्रेणी स्कोर संगति सही परीक्षण
एंटी-एआई ट्रिक्स 4.0 8.4
कोडिंग 5.5 10.0
संयुक्त 3.0 10.0
डेटा पार्सिंग और निष्कर्षण 10.0 10.0
डोमेन-विशिष्ट 3.0 10.0
Samanya Buddhimatta 5.0 10.0
निर्देश पालन 6.3 10.0
पहेली समाधान 5.9 7.2
टूल कॉलिंग 10.0 10.0

तुलना किए गए मॉडल