#17

GPT-5.4

OpenAI रिलीज़: 2026-03-05 परीक्षण किया गया: 2026-04-11 01:44 openai/gpt-5.4::medium

(medium) (none)

सारांश

GPT-5.4 AI BENCHY पर 8.2 स्कोर करता है और #17 पर है। इसकी reliability लागू नहीं, pass rate 79.6%, कुल लागत $0.832, और औसत response time 18.63s है।

स्कोर

8.2

संगति

8.7

विश्वसनीयता

लागू नहीं

कुल लागत (वर्तमान कीमत)

$0.832

कुल आउटपुट टोकन

50,901

कुल इनपुट टोकन

इनपुट कीमत

$2.500 / 1M

आउटपुट कीमत

$15.000 / 1M

सही परीक्षण

गलत टेस्ट: 5

प्रति प्रयास पास दर: 79.6%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

18.63s

प्रतिक्रिया समय (अधिकतम): 100.41s

प्रतिक्रिया समय (कुल): 335.26s

गलत उत्तर: 3 निर्देशों का पालन नहीं किया: 2

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#17 GPT-5.4

medium

लागत: $0.214
समय: 199.6s
टोकन: 14,349 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 22:34 नया टेस्ट जोड़ा गया	8.5	10.0	$1.533	तुलना करें
2026-06-04 13:46 नया टेस्ट जोड़ा गया	8.0	10.0	$1.210	तुलना करें
2026-05-22 00:19 सूट बदला गया	7.9	10.0	$1.140	तुलना करें
2026-04-11 01:44 पहला दर्ज रन	8.2	लागू नहीं	$0.832	वर्तमान रन

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-04-11 01:44 · पहला दर्ज रन	8.2	8.7	लागू नहीं	13/18	3	50,901	$0.832	18.63s
2026-05-22 00:19 · सूट बदला गया	7.9	8.5	10.0	13/20	4	70,725	$1.140	22.31s
अंतर	+0.3	+0.2		0	-1	-19824	-$0.308	-3682ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

GPT-5.4mediumvsClaude Fable 5medium GPT-5.4mediumvsQwen3.6 Max Previewmedium GPT-5.4mediumvsMuse Spark 1.1medium GPT-5.4mediumvsGrok 4.5low GPT-5.4mediumvsClaude Opus 4.7medium GPT-5.4mediumvsGPT-5.2medium GPT-5.4mediumvsGemini 3 Flash Previewmedium GPT-5.4mediumvsGemini 3.5 Flashhigh GPT-5.4mediumvsNemotron 3 Ultramediumनिःशुल्क उपलब्ध GPT-5.4mediumvsGPT-5.5low

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	8.3	10.0
कोडिंग	10.0	10.0
संयुक्त	10.0	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	7.2
Samanya Buddhimatta	4.7	3.1
निर्देश पालन	10.0	10.0
पहेली समाधान	8.2	7.2
टूल कॉलिंग	10.0	10.0

GPT-5.4

Hamster playing table tennis

#17 GPT-5.4

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल