#20

Grok 4.3

X AI प्रकाशन: 2026-05-01 चाचणी तारीख: 2026-05-01 00:40 x-ai/grok-4.3::medium

सारांश

Grok 4.3 AI BENCHY वर 8.2 स्कोर करते आणि #20 वर आहे. याची reliability 10.0, pass rate 81.5%, एकूण खर्च $0.517, आणि सरासरी response time 48.63s आहे.

Grok 4.3 खास का आहे: या score range साठी एकूण benchmark खर्च असामान्यपणे कमी आहे.

स्कोअर

8.2

सुसंगतता

8.6

विश्वसनीयता

10.0

एकूण खर्च (सध्याची किंमत)

$0.517

एकूण आउटपुट टोकन्स

188,270

एकूण इनपुट टोकन्स

इनपुट किंमत

$1.250 / 1M

आउटपुट किंमत

$2.500 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 5

प्रति प्रयत्न पास दर: 81.5%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

48.63s

प्रतिसाद वेळ (कमाल): 216.69s

प्रतिसाद वेळ (एकूण): 875.27s

सूचनांचे पालन केले नाही: 3 चुकीचे उत्तर: 2

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#20 xAI: Grok 4.3

medium

खर्च: $0.009
वेळ: 19.0s
टोकन्स: 3,661 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-07-16 23:07 नवीन चाचणी जोडली	7.1	10.0	$0.779	तुलना करा
2026-06-04 14:11 नवीन चाचणी जोडली	7.6	10.0	$0.614	तुलना करा
2026-05-22 00:32 पुन्हा चाचणी	7.8	10.0	$0.593	तुलना करा
2026-05-01 00:40 पहिला रन	8.2	10.0	$0.517	सध्याची रन

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण इनपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-05-01 00:40 · पहिला रन	8.2	8.6	10.0	13/18	3	188,270	0	$0.517	48.63s
2026-06-04 14:11 · नवीन चाचणी जोडली	7.6	8.5	10.0	13/21	4	223,363	44,472	$0.614	47.51s
फरक	+0.7	+0.1	0.0	0	-1	-35093	-44472	-$0.098	+1117ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

Grok 4.3mediumvsQwen3.5-122B-A10Bmedium Grok 4.3mediumvsGLM 5.1medium Grok 4.3mediumvsQwen3.7 Plusnone Grok 4.3mediumvsGrok 4.20medium Grok 4.3mediumvsQwen3.5 Plus 2026-04-20medium Grok 4.3mediumvsDeepSeek V3.2medium Grok 4.3mediumvsKAT-Coder-Pro V2.5high Grok 4.3mediumvsKimi K2.5medium Grok 4.3mediumvsKimi K2.6medium Grok 4.3mediumvsMercury 2medium

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	10.0	10.0
कोडिंग	10.0	10.0
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	7.2
Samanya Buddhimatta	5.4	2.5
सूचनांचे पालन	9.8	10.0
कोडी सोडवणे	5.9	7.2
टूल कॉलिंग	10.0	10.0

Grok 4.3

Hamster playing table tennis

#20 xAI: Grok 4.3

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स