#71

GPT-5.4

OpenAI रिलीज़: 2026-03-05 परीक्षण किया गया: 2026-04-11 01:44 openai/gpt-5.4::none

(medium) (none)

सारांश

GPT-5.4 AI BENCHY पर 5.9 स्कोर करता है और #71 पर है। इसकी reliability लागू नहीं, pass rate 42.6%, कुल लागत $0.104, और औसत response time 1.51s है।

GPT-5.4 को अलग क्या बनाता है: यह कोडिंग में सबसे अलग दिखता है, जहाँ इसकी रैंक #1 है; जबकि एंटी-एआई ट्रिक्स इसकी सबसे कमजोर जगह है, जहाँ यह #18 पर है। यह समान मॉडलों की तुलना में काफ़ी तेज है।

स्कोर

5.9

संगति

9.1

विश्वसनीयता

लागू नहीं

कुल लागत (वर्तमान कीमत)

$0.104

कुल आउटपुट टोकन

2,317

कुल इनपुट टोकन

इनपुट कीमत

$2.500 / 1M

आउटपुट कीमत

$15.000 / 1M

सही परीक्षण

गलत टेस्ट: 11

प्रति प्रयास पास दर: 42.6%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

1.51s

प्रतिक्रिया समय (अधिकतम): 2.95s

प्रतिक्रिया समय (कुल): 27.21s

गलत उत्तर: 10 निर्देशों का पालन नहीं किया: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#71 GPT-5.4

none

लागत: $0.026
समय: 18.1s
टोकन: 1,792 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 22:33 नया टेस्ट जोड़ा गया	5.8	10.0	$0.397	तुलना करें
2026-06-04 13:45 नया टेस्ट जोड़ा गया	5.5	10.0	$0.122	तुलना करें
2026-05-22 00:18 सूट बदला गया	5.6	10.0	$0.115	तुलना करें
2026-04-11 01:44 पहला दर्ज रन	5.9	लागू नहीं	$0.104	वर्तमान रन

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-04-11 01:44 · पहला दर्ज रन	5.9	9.1	लागू नहीं	7/18	2	2,317	$0.104	1.51s
2026-05-22 00:18 · सूट बदला गया	5.6	9.1	10.0	7/20	2	2,378	$0.115	1.46s
अंतर	+0.3	0.0		0	0	-61	-$0.012	+50ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

GPT-5.4nonevsGPT-5 Nanomedium GPT-5.4nonevsStep 3.5 Flashmedium GPT-5.4nonevsQwen3.5-35B-A3Bnone GPT-5.4nonevsQwen3.5 Plus 2026-04-20none GPT-5.4nonevsGPT-5.6 Terranone GPT-5.4nonevsGemini 3 Flash Previewmedium GPT-5.4nonevsGemini 3.5 Flashhigh GPT-5.4nonevsNemotron 3 Ultramediumनिःशुल्क उपलब्ध GPT-5.4nonevsGPT-5.5low

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	3.2	8.0
कोडिंग	10.0	10.0
संयुक्त	3.0	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	7.2
Samanya Buddhimatta	4.4	9.9
निर्देश पालन	6.5	10.0
पहेली समाधान	5.6	9.8
टूल कॉलिंग	10.0	10.0

GPT-5.4

Hamster playing table tennis

#71 GPT-5.4

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल