#165

Grok Build 0.1

X AI रिलीज़: 2026-05-21 परीक्षण किया गया: 2026-05-21 12:40 x-ai/grok-build-0.1::none

(medium) (none)

सारांश

Grok Build 0.1 AI BENCHY पर 4.2 स्कोर करता है और #165 पर है। इसकी reliability 10.0, pass rate 46.0%, कुल लागत $0.547, और औसत response time 28.69s है।

संग्रहीत मॉडल: इस मॉडल को अब अपडेट नहीं किया जाएगा और नए परीक्षणों में टेस्ट नहीं किया जाएगा।

स्कोर

4.2

संगति

7.5

विश्वसनीयता

10.0

कुल लागत (वर्तमान कीमत)

$0.547

कुल आउटपुट टोकन

267,275

कुल इनपुट टोकन

11,793

इनपुट कीमत

$1.000 / 1M

आउटपुट कीमत

$2.000 / 1M

सही परीक्षण

गलत टेस्ट: 12

प्रति प्रयास पास दर: 46.0%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

28.69s

प्रतिक्रिया समय (अधिकतम): 138.35s

प्रतिक्रिया समय (कुल): 459.00s

गलत उत्तर: 7 API त्रुटि: 3 निर्देशों का पालन नहीं किया: 2

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	सही परीक्षण	कुल लागत	तुलना करें
2026-05-21 12:40 दोबारा परीक्षण	6.0	10.0		$0.547	वर्तमान रन
2026-05-21 12:40 दोबारा परीक्षण	6.6	10.0		$0.547	तुलना करें

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल इनपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-05-21 12:40 · वर्तमान रन	4.2	7.5	10.0	7/19	4	267,275	11,793	$0.547	28.69s
2026-05-21 12:40 · दोबारा परीक्षण	6.6	8.0	10.0	7/16	4	267,275	0	$0.547	28.69s
अंतर	-2.4	-0.5	0.0	-3	0	0	+11793	$0.000	0ms

कीमत का इतिहास

OpenRouter से इस मॉडल का ऐतिहासिक मूल्य डेटा।

तारीख	इनपुट कीमत	आउटपुट कीमत
2026-06-04 15:40	$1.000 / 1M	$2.000 / 1M

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

Grok Build 0.1nonevsGemini 3.5 Flashhigh Grok Build 0.1nonevsGemini 3 Flash Previewmedium Grok Build 0.1nonevsNemotron 3 Ultra 550b A55bmediumनिःशुल्क उपलब्ध Grok Build 0.1nonevsGPT-5.5low

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	8.7	7.9
कोडिंग	3.3	3.3
संयुक्त	3.0	10.0
डेटा पार्सिंग और निष्कर्षण	3.8	5.8
डोमेन-विशिष्ट	3.6	7.2
Samanya Buddhimatta	4.3	10.0
निर्देश पालन	9.8	10.0
पहेली समाधान	6.4	7.7
टूल कॉलिंग	3.0	10.0
सामान्य ज्ञान	3.0	10.0

Grok Build 0.1

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल