#135

GPT-5.4

OpenAI प्रकाशन: 2026-03-05 चाचणी तारीख: 2026-07-16 22:33 openai/gpt-5.4::none

(medium) (none)

सारांश

GPT-5.4 AI BENCHY वर 5.8 स्कोर करते आणि #135 वर आहे. याची reliability 10.0, pass rate 34.9%, एकूण खर्च $0.397, आणि सरासरी response time 2.07s आहे.

GPT-5.4 खास का आहे: हे कोडी सोडवणे मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #2 आहे; तर अँटी-एआय युक्त्या हा सर्वात कमकुवत भाग आहे, rank #8.

स्कोअर

5.8

सुसंगतता

9.2

विश्वसनीयता

10.0

एकूण खर्च (सध्याची किंमत)

$0.397

एकूण आउटपुट टोकन्स

8,321

एकूण इनपुट टोकन्स

108,632

इनपुट किंमत

$2.500 / 1M

आउटपुट किंमत

$15.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 15

प्रति प्रयत्न पास दर: 34.9%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

2.07s

प्रतिसाद वेळ (कमाल): 15.63s

प्रतिसाद वेळ (एकूण): 45.51s

चुकीचे उत्तर: 14 सूचनांचे पालन केले नाही: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#135 GPT-5.4

none

खर्च: $0.026
वेळ: 18.1s
टोकन्स: 1,792 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-07-16 22:33 नवीन चाचणी जोडली	5.8	10.0	$0.397	सध्याची रन
2026-06-04 13:45 नवीन चाचणी जोडली	5.5	10.0	$0.122	तुलना करा
2026-05-22 00:18 सूट बदलला	5.6	10.0	$0.115	तुलना करा
2026-04-11 01:44 पहिली नोंदलेली रन	5.9	लागू नाही	$0.104	तुलना करा

या रनमध्ये वेगळा बेंचमार्क सूट वापरला गेला. ऐतिहासिक बदल वाचताना सूटमधील बदल लक्षात घ्या.

किंमत इतिहास

OpenRouter मधील या मॉडेलचा ऐतिहासिक किंमत डेटा.

तारीख	इनपुट किंमत	आउटपुट किंमत
2026-06-04 15:40	$2.500 / 1M	$15.000 / 1M

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

GPT-5.4nonevsGPT-5 Nanomedium GPT-5.4nonevsStep 3.5 Flashmedium GPT-5.4nonevsQwen3.5-35B-A3Bnone GPT-5.4nonevsQwen3.5 Plus 2026-04-20none GPT-5.4nonevsGPT-5.6 Terranone GPT-5.4nonevsGemini 3 Flash Previewmedium GPT-5.4nonevsGemini 3.5 Flashhigh GPT-5.4nonevsNemotron 3 Ultramediumमोफत उपलब्ध GPT-5.4nonevsGPT-5.5low

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	3.2	8.0
कोडिंग	5.5	10.0
संयुक्त	3.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	7.2
Samanya Buddhimatta	4.4	9.9
सूचनांचे पालन	6.5	10.0
कोडी सोडवणे	5.6	9.8
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

GPT-5.4

Hamster playing table tennis

#135 GPT-5.4

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स