#18

GPT-5.4

OpenAI रिलीज़: 2026-03-05 परीक्षण किया गया: 2026-07-16 22:34 openai/gpt-5.4::medium

(medium) (none)

सारांश

GPT-5.4 AI BENCHY पर 8.5 स्कोर करता है और #18 पर है। इसकी reliability 10.0, pass rate 77.3%, कुल लागत $1.533, और औसत response time 23.10s है।

स्कोर

8.5

संगति

8.6

विश्वसनीयता

10.0

कुल लागत (वर्तमान कीमत)

$1.533

कुल आउटपुट टोकन

88,670

कुल इनपुट टोकन

81,127

इनपुट कीमत

$2.500 / 1M

आउटपुट कीमत

$15.000 / 1M

सही परीक्षण

गलत टेस्ट: 7

प्रति प्रयास पास दर: 77.3%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

23.10s

प्रतिक्रिया समय (अधिकतम): 100.41s

प्रतिक्रिया समय (कुल): 508.26s

गलत उत्तर: 5 निर्देशों का पालन नहीं किया: 2

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#18 GPT-5.4

medium

लागत: $0.214
समय: 199.6s
टोकन: 14,349 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 22:34 नया टेस्ट जोड़ा गया	8.5	10.0	$1.533	वर्तमान रन
2026-06-04 13:46 नया टेस्ट जोड़ा गया	8.0	10.0	$1.210	तुलना करें
2026-05-22 00:19 सूट बदला गया	7.9	10.0	$1.140	तुलना करें
2026-04-11 01:44 पहला दर्ज रन	8.2	लागू नहीं	$0.832	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल इनपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-07-16 22:34 · वर्तमान रन	8.5	8.6	10.0	15/22	4	88,670	81,127	$1.533	23.10s
2026-04-11 01:44 · पहला दर्ज रन	8.2	8.7	लागू नहीं	13/18	3	50,901	0	$0.832	18.63s
अंतर	+0.3	-0.1		+2	+1	+37769	+81127	+$0.702	+4477ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

कीमत का इतिहास

OpenRouter से इस मॉडल का ऐतिहासिक मूल्य डेटा।

तारीख	इनपुट कीमत	आउटपुट कीमत
2026-06-04 15:40	$2.500 / 1M	$15.000 / 1M

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

GPT-5.4mediumvsClaude Fable 5medium GPT-5.4mediumvsQwen3.6 Max Previewmedium GPT-5.4mediumvsMuse Spark 1.1medium GPT-5.4mediumvsGrok 4.5low GPT-5.4mediumvsClaude Opus 4.7medium GPT-5.4mediumvsGPT-5.2medium GPT-5.4mediumvsGemini 3 Flash Previewmedium GPT-5.4mediumvsGemini 3.5 Flashhigh GPT-5.4mediumvsNemotron 3 Ultramediumनिःशुल्क उपलब्ध GPT-5.4mediumvsGPT-5.5low

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	8.3	10.0
कोडिंग	8.8	7.8
संयुक्त	10.0	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	7.2
Samanya Buddhimatta	4.7	3.1
निर्देश पालन	10.0	10.0
पहेली समाधान	8.2	7.2
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

GPT-5.4

Hamster playing table tennis

#18 GPT-5.4

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल