#33

Grok 4.3

X AI प्रकाशन: 2026-05-01 चाचणी तारीख: 2026-05-22 00:32 x-ai/grok-4.3::medium

सारांश

Grok 4.3 AI BENCHY वर 7.8 स्कोर करते आणि #33 वर आहे. याची reliability 10.0, pass rate 75.0%, एकूण खर्च $0.593, आणि सरासरी response time 49.23s आहे.

Grok 4.3 खास का आहे: हे संयुक्त मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #1 आहे; तर कोडिंग हा सर्वात कमकुवत भाग आहे, rank #17.

स्कोअर

7.8

सुसंगतता

8.4

विश्वसनीयता

10.0

एकूण खर्च (सध्याची किंमत)

$0.593

एकूण आउटपुट टोकन्स

216,413

एकूण इनपुट टोकन्स

इनपुट किंमत

$1.250 / 1M

आउटपुट किंमत

$2.500 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 7

प्रति प्रयत्न पास दर: 75.0%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

49.23s

प्रतिसाद वेळ (कमाल): 216.69s

प्रतिसाद वेळ (एकूण): 984.54s

चुकीचे उत्तर: 4 सूचनांचे पालन केले नाही: 2 अतिरिक्त फॉरमॅटिंग: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#33 xAI: Grok 4.3

medium

खर्च: $0.009
वेळ: 19.0s
टोकन्स: 3,661 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-07-16 23:07 नवीन चाचणी जोडली	7.1	10.0	$0.779	तुलना करा
2026-06-04 14:11 नवीन चाचणी जोडली	7.6	10.0	$0.614	तुलना करा
2026-05-22 00:32 पुन्हा चाचणी	7.8	10.0	$0.593	सध्याची रन
2026-05-01 00:40 पहिला रन	8.2	10.0	$0.517	तुलना करा

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण इनपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-05-22 00:32 · पुन्हा चाचणी	7.8	8.4	10.0	13/20	4	216,413	0	$0.593	49.23s
2026-06-04 14:11 · नवीन चाचणी जोडली	7.6	8.5	10.0	13/21	4	223,363	44,472	$0.614	47.51s
फरक	+0.2	-0.1	0.0	0	0	-6950	-44472	-$0.022	+1718ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

Grok 4.3mediumvsQwen3.5-122B-A10Bmedium Grok 4.3mediumvsGLM 5.1medium Grok 4.3mediumvsQwen3.7 Plusnone Grok 4.3mediumvsGrok 4.20medium Grok 4.3mediumvsQwen3.5 Plus 2026-04-20medium Grok 4.3mediumvsDeepSeek V3.2medium Grok 4.3mediumvsKAT-Coder-Pro V2.5high Grok 4.3mediumvsKimi K2.5medium Grok 4.3mediumvsKimi K2.6medium Grok 4.3mediumvsMercury 2medium

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	10.0	10.0
कोडिंग	7.4	6.5
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	7.2
Samanya Buddhimatta	5.4	2.5
सूचनांचे पालन	9.8	10.0
कोडी सोडवणे	5.9	7.2
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

Grok 4.3

Hamster playing table tennis

#33 xAI: Grok 4.3

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स