AI BENCHY
Advertise here
#112

GPT-5.4

OpenAI प्रकाशन: 2026-03-05 चाचणी तारीख: 2026-06-04 13:45 openai/gpt-5.4::none
(medium) (none)

सारांश

GPT-5.4 AI BENCHY वर 5.8 स्कोर करते आणि #112 वर आहे. याची reliability 10.0, pass rate 36.5%, एकूण खर्च $0.122, आणि सरासरी response time 1.42s आहे.

GPT-5.4 खास का आहे: समान मॉडेल्सच्या तुलनेत हे लक्षणीय वेगवान आहे.

सुसंगतता

9.2

एकूण आउटपुट टोकन्स

2,417

एकूण इनपुट टोकन्स

34,212

इनपुट किंमत

$2.500 / 1M

आउटपुट किंमत

$15.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 14

प्रति प्रयत्न पास दर: 36.5%

अस्थिर चाचण्या

2

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

1.42s

प्रतिसाद वेळ (कमाल): 2.95s

प्रतिसाद वेळ (एकूण): 29.87s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#112 GPT-5.4

none
खर्च
$0.026
वेळ
18.1s
टोकन्स
1,792 tok

रन इतिहास

चाचणी तारीख स्कोअर विश्वसनीयता बरोबर चाचण्या एकूण खर्च तुलना करा
2026-06-04 13:45 नवीन चाचणी जोडली 5.5 10.0 $0.122 सध्याची रन
2026-05-22 00:18 सूट बदलला 5.6 10.0 $0.115 तुलना करा
2026-04-11 01:44 पहिली नोंदलेली रन 5.9 लागू नाही $0.104 तुलना करा

या रनमध्ये वेगळा बेंचमार्क सूट वापरला गेला. ऐतिहासिक बदल वाचताना सूटमधील बदल लक्षात घ्या.

रन तुलना

रनस्कोअरसुसंगतताविश्वसनीयताबरोबर चाचण्याअस्थिर चाचण्याएकूण आउटपुट टोकन्सएकूण इनपुट टोकन्सएकूण खर्चप्रतिसाद वेळ (सरासरी)
2026-06-04 13:45 · सध्याची रन5.89.210.07/2122,41734,212$0.1221.42s
2026-05-22 00:18 · सूट बदलला5.69.110.07/2022,3780$0.1151.46s
फरक+0.2+0.10.000+39+34212+$0.008-39ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

किंमत इतिहास

OpenRouter मधील या मॉडेलचा ऐतिहासिक किंमत डेटा.

तारीख इनपुट किंमत आउटपुट किंमत
2026-06-04 15:40 $2.500 / 1M $15.000 / 1M

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

श्रेणी स्कोअर सुसंगतता बरोबर चाचण्या
अँटी-एआय युक्त्या 3.2 8.0
कोडिंग 5.5 10.0
संयुक्त 3.0 10.0
डेटा पार्सिंग आणि निष्कर्षण 10.0 10.0
डोमेन-विशिष्ट 5.3 7.2
Samanya Buddhimatta 4.4 9.9
सूचनांचे पालन 6.5 10.0
कोडी सोडवणे 5.6 9.8
टूल कॉलिंग 10.0 10.0
सामान्य ज्ञान 3.0 10.0

तुलना केलेली मॉडेल्स