#17

GPT-5.4

OpenAI प्रकाशन: 2026-03-05 चाचणी तारीख: 2026-04-11 01:44 openai/gpt-5.4::medium

(medium) (none)

सारांश

GPT-5.4 AI BENCHY वर 8.2 स्कोर करते आणि #17 वर आहे. याची reliability लागू नाही, pass rate 79.6%, एकूण खर्च $0.832, आणि सरासरी response time 18.63s आहे.

स्कोअर

8.2

सुसंगतता

8.7

विश्वसनीयता

लागू नाही

एकूण खर्च (सध्याची किंमत)

$0.832

एकूण आउटपुट टोकन्स

50,901

एकूण इनपुट टोकन्स

इनपुट किंमत

$2.500 / 1M

आउटपुट किंमत

$15.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 5

प्रति प्रयत्न पास दर: 79.6%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

18.63s

प्रतिसाद वेळ (कमाल): 100.41s

प्रतिसाद वेळ (एकूण): 335.26s

चुकीचे उत्तर: 3 सूचनांचे पालन केले नाही: 2

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#17 GPT-5.4

medium

खर्च: $0.214
वेळ: 199.6s
टोकन्स: 14,349 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-07-16 22:34 नवीन चाचणी जोडली	8.5	10.0	$1.533	तुलना करा
2026-06-04 13:46 नवीन चाचणी जोडली	8.0	10.0	$1.210	तुलना करा
2026-05-22 00:19 सूट बदलला	7.9	10.0	$1.140	तुलना करा
2026-04-11 01:44 पहिली नोंदलेली रन	8.2	लागू नाही	$0.832	सध्याची रन

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण इनपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-04-11 01:44 · पहिली नोंदलेली रन	8.2	8.7	लागू नाही	13/18	3	50,901	0	$0.832	18.63s
2026-06-04 13:46 · नवीन चाचणी जोडली	8.0	8.6	10.0	14/21	4	74,949	34,108	$1.210	22.35s
फरक	+0.2	+0.1		-1	-1	-24048	-34108	-$0.378	-3722ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

GPT-5.4mediumvsClaude Fable 5medium GPT-5.4mediumvsQwen3.6 Max Previewmedium GPT-5.4mediumvsMuse Spark 1.1medium GPT-5.4mediumvsGrok 4.5low GPT-5.4mediumvsClaude Opus 4.7medium GPT-5.4mediumvsGPT-5.2medium GPT-5.4mediumvsGemini 3 Flash Previewmedium GPT-5.4mediumvsGemini 3.5 Flashhigh GPT-5.4mediumvsNemotron 3 Ultramediumमोफत उपलब्ध GPT-5.4mediumvsGPT-5.5low

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	8.3	10.0
कोडिंग	10.0	10.0
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	7.2
Samanya Buddhimatta	4.7	3.1
सूचनांचे पालन	10.0	10.0
कोडी सोडवणे	8.2	7.2
टूल कॉलिंग	10.0	10.0

GPT-5.4

Hamster playing table tennis

#17 GPT-5.4

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स