#82

Grok Build 0.1

X AI प्रकाशन: 2026-05-21 चाचणी तारीख: 2026-05-21 12:40 x-ai/grok-build-0.1::none

(medium) (none)

सारांश

Grok Build 0.1 AI BENCHY वर 6.6 स्कोर करते आणि #82 वर आहे. याची reliability 10.0, pass rate 60.4%, एकूण खर्च $0.547, आणि सरासरी response time 28.69s आहे.

Grok Build 0.1 खास का आहे: हे कोडिंग मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #1 आहे; तर संयुक्त हा सर्वात कमकुवत भाग आहे, rank #13.

संग्रहित मॉडेल: हे मॉडेल आता अपडेट केले जाणार नाही आणि नवीन चाचण्यांवर तपासले जाणार नाही.

स्कोअर

6.6

सुसंगतता

8.0

विश्वसनीयता

10.0

एकूण खर्च (सध्याची किंमत)

$0.547

एकूण आउटपुट टोकन्स

267,275

एकूण इनपुट टोकन्स

इनपुट किंमत

$1.000 / 1M

आउटपुट किंमत

$2.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 9

प्रति प्रयत्न पास दर: 60.4%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

28.69s

प्रतिसाद वेळ (कमाल): 138.35s

प्रतिसाद वेळ (एकूण): 459.00s

चुकीचे उत्तर: 7 सूचनांचे पालन केले नाही: 2

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	बरोबर चाचण्या	एकूण खर्च	तुलना करा
2026-05-21 12:40 पुन्हा चाचणी	6.0	10.0		$0.547	तुलना करा
2026-05-21 12:40 पुन्हा चाचणी	6.6	10.0		$0.547	सध्याची रन

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण इनपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-05-21 12:40 · पुन्हा चाचणी	6.6	8.0	10.0	7/16	4	267,275	0	$0.547	28.69s
2026-05-21 12:40 · पुन्हा चाचणी	6.0	8.3	10.0	7/19	4	267,275	11,793	$0.547	28.69s
फरक	+0.6	-0.3	0.0	+3	0	0	-11793	$0.000	0ms

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

Grok Build 0.1nonevsGemini 3.5 Flashhigh Grok Build 0.1nonevsGemini 3 Flash Previewmedium Grok Build 0.1nonevsNemotron 3 Ultra 550b A55bmediumमोफत उपलब्ध Grok Build 0.1nonevsGPT-5.5low

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	8.7	7.9
कोडिंग	10.0	10.0
संयुक्त	0.0	0.0
डेटा पार्सिंग आणि निष्कर्षण	4.7	1.6
डोमेन-विशिष्ट	3.6	7.2
Samanya Buddhimatta	4.3	10.0
सूचनांचे पालन	9.8	10.0
कोडी सोडवणे	6.4	7.7
टूल कॉलिंग	0.0	0.0
सामान्य ज्ञान	3.0	10.0

Grok Build 0.1

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स