#165

Grok Build 0.1

X AI प्रकाशन: 2026-05-21 चाचणी तारीख: 2026-05-21 12:40 x-ai/grok-build-0.1::none

(medium) (none)

सारांश

Grok Build 0.1 AI BENCHY वर 4.2 स्कोर करते आणि #165 वर आहे. याची reliability 10.0, pass rate 46.0%, एकूण खर्च $0.547, आणि सरासरी response time 28.69s आहे.

संग्रहित मॉडेल: हे मॉडेल आता अपडेट केले जाणार नाही आणि नवीन चाचण्यांवर तपासले जाणार नाही.

स्कोअर

4.2

सुसंगतता

7.5

विश्वसनीयता

10.0

एकूण खर्च (सध्याची किंमत)

$0.547

एकूण आउटपुट टोकन्स

267,275

एकूण इनपुट टोकन्स

11,793

इनपुट किंमत

$1.000 / 1M

आउटपुट किंमत

$2.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 12

प्रति प्रयत्न पास दर: 46.0%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

28.69s

प्रतिसाद वेळ (कमाल): 138.35s

प्रतिसाद वेळ (एकूण): 459.00s

चुकीचे उत्तर: 7 API त्रुटी: 3 सूचनांचे पालन केले नाही: 2

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	बरोबर चाचण्या	एकूण खर्च	तुलना करा
2026-05-21 12:40 पुन्हा चाचणी	6.0	10.0		$0.547	सध्याची रन
2026-05-21 12:40 पुन्हा चाचणी	6.6	10.0		$0.547	तुलना करा

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण इनपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-05-21 12:40 · सध्याची रन	4.2	7.5	10.0	7/19	4	267,275	11,793	$0.547	28.69s
2026-05-21 12:40 · पुन्हा चाचणी	6.6	8.0	10.0	7/16	4	267,275	0	$0.547	28.69s
फरक	-2.4	-0.5	0.0	-3	0	0	+11793	$0.000	0ms

किंमत इतिहास

OpenRouter मधील या मॉडेलचा ऐतिहासिक किंमत डेटा.

तारीख	इनपुट किंमत	आउटपुट किंमत
2026-06-04 15:40	$1.000 / 1M	$2.000 / 1M

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

Grok Build 0.1nonevsGemini 3.5 Flashhigh Grok Build 0.1nonevsGemini 3 Flash Previewmedium Grok Build 0.1nonevsNemotron 3 Ultra 550b A55bmediumमोफत उपलब्ध Grok Build 0.1nonevsGPT-5.5low

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	8.7	7.9
कोडिंग	3.3	3.3
संयुक्त	3.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	3.8	5.8
डोमेन-विशिष्ट	3.6	7.2
Samanya Buddhimatta	4.3	10.0
सूचनांचे पालन	9.8	10.0
कोडी सोडवणे	6.4	7.7
टूल कॉलिंग	3.0	10.0
सामान्य ज्ञान	3.0	10.0

Grok Build 0.1

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स