#82

Grok Build 0.1

X AI रिलीज़: 2026-05-21 परीक्षण किया गया: 2026-05-21 12:40 x-ai/grok-build-0.1::none

(medium) (none)

सारांश

Grok Build 0.1 AI BENCHY पर 6.6 स्कोर करता है और #82 पर है। इसकी reliability 10.0, pass rate 60.4%, कुल लागत $0.547, और औसत response time 28.69s है।

Grok Build 0.1 को अलग क्या बनाता है: यह कोडिंग में सबसे अलग दिखता है, जहाँ इसकी रैंक #1 है; जबकि संयुक्त इसकी सबसे कमजोर जगह है, जहाँ यह #13 पर है।

संग्रहीत मॉडल: इस मॉडल को अब अपडेट नहीं किया जाएगा और नए परीक्षणों में टेस्ट नहीं किया जाएगा।

स्कोर

6.6

संगति

8.0

विश्वसनीयता

10.0

कुल लागत (वर्तमान कीमत)

$0.547

कुल आउटपुट टोकन

267,275

कुल इनपुट टोकन

इनपुट कीमत

$1.000 / 1M

आउटपुट कीमत

$2.000 / 1M

सही परीक्षण

गलत टेस्ट: 9

प्रति प्रयास पास दर: 60.4%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

28.69s

प्रतिक्रिया समय (अधिकतम): 138.35s

प्रतिक्रिया समय (कुल): 459.00s

गलत उत्तर: 7 निर्देशों का पालन नहीं किया: 2

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	सही परीक्षण	कुल लागत	तुलना करें
2026-05-21 12:40 दोबारा परीक्षण	6.0	10.0		$0.547	तुलना करें
2026-05-21 12:40 दोबारा परीक्षण	6.6	10.0		$0.547	वर्तमान रन

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

Grok Build 0.1nonevsGemini 3.5 Flashhigh Grok Build 0.1nonevsGemini 3 Flash Previewmedium Grok Build 0.1nonevsNemotron 3 Ultra 550b A55bmediumनिःशुल्क उपलब्ध Grok Build 0.1nonevsGPT-5.5low

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	8.7	7.9
कोडिंग	10.0	10.0
संयुक्त	0.0	0.0
डेटा पार्सिंग और निष्कर्षण	4.7	1.6
डोमेन-विशिष्ट	3.6	7.2
Samanya Buddhimatta	4.3	10.0
निर्देश पालन	9.8	10.0
पहेली समाधान	6.4	7.7
टूल कॉलिंग	0.0	0.0
सामान्य ज्ञान	3.0	10.0

Grok Build 0.1

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल