#28

GPT-5.4

OpenAI प्रकाशन: 2026-03-05 चाचणी तारीख: 2026-05-22 00:19 openai/gpt-5.4::medium

(medium) (none)

सारांश

GPT-5.4 AI BENCHY वर 7.9 स्कोर करते आणि #28 वर आहे. याची reliability 10.0, pass rate 75.0%, एकूण खर्च $1.140, आणि सरासरी response time 22.31s आहे.

GPT-5.4 खास का आहे: हे संयुक्त मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #1 आहे; तर Samanya Buddhimatta हा सर्वात कमकुवत भाग आहे, rank #14.

स्कोअर

7.9

सुसंगतता

8.5

विश्वसनीयता

10.0

एकूण खर्च (सध्याची किंमत)

$1.140

एकूण आउटपुट टोकन्स

70,725

एकूण इनपुट टोकन्स

इनपुट किंमत

$2.500 / 1M

आउटपुट किंमत

$15.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 7

प्रति प्रयत्न पास दर: 75.0%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

22.31s

प्रतिसाद वेळ (कमाल): 100.41s

प्रतिसाद वेळ (एकूण): 446.15s

चुकीचे उत्तर: 5 सूचनांचे पालन केले नाही: 2

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#28 GPT-5.4

medium

खर्च: $0.214
वेळ: 199.6s
टोकन्स: 14,349 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-07-16 22:34 नवीन चाचणी जोडली	8.5	10.0	$1.533	तुलना करा
2026-06-04 13:46 नवीन चाचणी जोडली	8.0	10.0	$1.210	तुलना करा
2026-05-22 00:19 सूट बदलला	7.9	10.0	$1.140	सध्याची रन
2026-04-11 01:44 पहिली नोंदलेली रन	8.2	लागू नाही	$0.832	तुलना करा

या रनमध्ये वेगळा बेंचमार्क सूट वापरला गेला. ऐतिहासिक बदल वाचताना सूटमधील बदल लक्षात घ्या.

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-05-22 00:19 · सूट बदलला	7.9	8.5	10.0	13/20	4	70,725	$1.140	22.31s
2026-04-11 01:44 · पहिली नोंदलेली रन	8.2	8.7	लागू नाही	13/18	3	50,901	$0.832	18.63s
फरक	-0.3	-0.2		0	+1	+19824	+$0.308	+3682ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

GPT-5.4mediumvsClaude Fable 5medium GPT-5.4mediumvsQwen3.6 Max Previewmedium GPT-5.4mediumvsMuse Spark 1.1medium GPT-5.4mediumvsGrok 4.5low GPT-5.4mediumvsClaude Opus 4.7medium GPT-5.4mediumvsGPT-5.2medium GPT-5.4mediumvsGemini 3 Flash Previewmedium GPT-5.4mediumvsGemini 3.5 Flashhigh GPT-5.4mediumvsNemotron 3 Ultramediumमोफत उपलब्ध GPT-5.4mediumvsGPT-5.5low

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	8.3	10.0
कोडिंग	8.2	6.7
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	7.2
Samanya Buddhimatta	4.7	3.1
सूचनांचे पालन	10.0	10.0
कोडी सोडवणे	8.2	7.2
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

GPT-5.4

Hamster playing table tennis

#28 GPT-5.4

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स