#113

GPT-5.4

OpenAI प्रकाशन: 2026-03-05 चाचणी तारीख: 2026-05-22 00:18 openai/gpt-5.4::none

(medium) (none)

सारांश

GPT-5.4 AI BENCHY वर 5.6 स्कोर करते आणि #113 वर आहे. याची reliability 10.0, pass rate 38.3%, एकूण खर्च $0.115, आणि सरासरी response time 1.46s आहे.

GPT-5.4 खास का आहे: हे कोडिंग मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #1 आहे; तर अँटी-एआय युक्त्या हा सर्वात कमकुवत भाग आहे, rank #9. समान मॉडेल्सच्या तुलनेत हे लक्षणीय वेगवान आहे.

स्कोअर

5.6

सुसंगतता

9.1

विश्वसनीयता

10.0

एकूण खर्च (सध्याची किंमत)

$0.115

एकूण आउटपुट टोकन्स

2,378

एकूण इनपुट टोकन्स

इनपुट किंमत

$2.500 / 1M

आउटपुट किंमत

$15.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 13

प्रति प्रयत्न पास दर: 38.3%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

1.46s

प्रतिसाद वेळ (कमाल): 2.95s

प्रतिसाद वेळ (एकूण): 29.23s

चुकीचे उत्तर: 12 सूचनांचे पालन केले नाही: 1

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#113 GPT-5.4

none

खर्च: $0.026
वेळ: 18.1s
टोकन्स: 1,792 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-06-04 13:45 नवीन चाचणी जोडली	5.5	10.0	$0.122	तुलना करा
2026-05-22 00:18 सूट बदलला	5.6	10.0	$0.115	सध्याची रन
2026-04-11 01:44 पहिली नोंदलेली रन	5.9	लागू नाही	$0.104	तुलना करा

या रनमध्ये वेगळा बेंचमार्क सूट वापरला गेला. ऐतिहासिक बदल वाचताना सूटमधील बदल लक्षात घ्या.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

GPT-5.4nonevsGemini 3.1 Flash Liteminimal GPT-5.4nonevsGemini 3.1 Flash Litenone GPT-5.4nonevsGemini 2.5 Flashnone GPT-5.4nonevsQwen3.5-Flashnone GPT-5.4nonevsSeed-2.0-Litenone GPT-5.4nonevsGemma 4 31Bnoneमोफत उपलब्ध GPT-5.4nonevsGemini 3.5 Flashhigh GPT-5.4nonevsGemini 3 Flash Previewmedium GPT-5.4nonevsNemotron 3 Ultra 550b A55bmediumमोफत उपलब्ध GPT-5.4nonevsGPT-5.5low

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	3.2	8.0
कोडिंग	6.8	10.0
संयुक्त	3.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	7.2
Samanya Buddhimatta	4.4	9.9
सूचनांचे पालन	6.5	10.0
कोडी सोडवणे	5.6	9.8
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

GPT-5.4

Hamster playing table tennis

#113 GPT-5.4

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स