#18

GPT-5.4

OpenAI प्रकाशन: 2026-03-05 चाचणी तारीख: 2026-07-16 22:34 openai/gpt-5.4::medium

(medium) (none)

सारांश

GPT-5.4 AI BENCHY वर 8.5 स्कोर करते आणि #18 वर आहे. याची reliability 10.0, pass rate 77.3%, एकूण खर्च $1.533, आणि सरासरी response time 23.10s आहे.

स्कोअर

8.5

सुसंगतता

8.6

विश्वसनीयता

10.0

एकूण खर्च (सध्याची किंमत)

$1.533

एकूण आउटपुट टोकन्स

88,670

एकूण इनपुट टोकन्स

81,127

इनपुट किंमत

$2.500 / 1M

आउटपुट किंमत

$15.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 7

प्रति प्रयत्न पास दर: 77.3%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

23.10s

प्रतिसाद वेळ (कमाल): 100.41s

प्रतिसाद वेळ (एकूण): 508.26s

चुकीचे उत्तर: 5 सूचनांचे पालन केले नाही: 2

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#18 GPT-5.4

medium

खर्च: $0.214
वेळ: 199.6s
टोकन्स: 14,349 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-07-16 22:34 नवीन चाचणी जोडली	8.5	10.0	$1.533	सध्याची रन
2026-06-04 13:46 नवीन चाचणी जोडली	8.0	10.0	$1.210	तुलना करा
2026-05-22 00:19 सूट बदलला	7.9	10.0	$1.140	तुलना करा
2026-04-11 01:44 पहिली नोंदलेली रन	8.2	लागू नाही	$0.832	तुलना करा

या रनमध्ये वेगळा बेंचमार्क सूट वापरला गेला. ऐतिहासिक बदल वाचताना सूटमधील बदल लक्षात घ्या.

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण इनपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-07-16 22:34 · सध्याची रन	8.5	8.6	10.0	15/22	4	88,670	81,127	$1.533	23.10s
2026-04-11 01:44 · पहिली नोंदलेली रन	8.2	8.7	लागू नाही	13/18	3	50,901	0	$0.832	18.63s
फरक	+0.3	-0.1		+2	+1	+37769	+81127	+$0.702	+4477ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

किंमत इतिहास

OpenRouter मधील या मॉडेलचा ऐतिहासिक किंमत डेटा.

तारीख	इनपुट किंमत	आउटपुट किंमत
2026-06-04 15:40	$2.500 / 1M	$15.000 / 1M

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

GPT-5.4mediumvsClaude Fable 5medium GPT-5.4mediumvsQwen3.6 Max Previewmedium GPT-5.4mediumvsMuse Spark 1.1medium GPT-5.4mediumvsGrok 4.5low GPT-5.4mediumvsClaude Opus 4.7medium GPT-5.4mediumvsGPT-5.2medium GPT-5.4mediumvsGemini 3 Flash Previewmedium GPT-5.4mediumvsGemini 3.5 Flashhigh GPT-5.4mediumvsNemotron 3 Ultramediumमोफत उपलब्ध GPT-5.4mediumvsGPT-5.5low

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	8.3	10.0
कोडिंग	8.8	7.8
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	7.2
Samanya Buddhimatta	4.7	3.1
सूचनांचे पालन	10.0	10.0
कोडी सोडवणे	8.2	7.2
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

GPT-5.4

Hamster playing table tennis

#18 GPT-5.4

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स