#91

GPT-5.5

OpenAI रिलीज़: 2026-04-24 परीक्षण किया गया: 2026-07-16 22:34 openai/gpt-5.5::none

(medium) (low) (none)

सारांश

GPT-5.5 AI BENCHY पर 6.9 स्कोर करता है और #91 पर है। इसकी reliability 10.0, pass rate 56.1%, कुल लागत $0.544, और औसत response time 2.36s है।

स्कोर

6.9

संगति

8.9

विश्वसनीयता

10.0

कुल लागत (वर्तमान कीमत)

$0.544

कुल आउटपुट टोकन

4,915

कुल इनपुट टोकन

79,285

इनपुट कीमत

$5.000 / 1M

आउटपुट कीमत

$30.000 / 1M

सही परीक्षण

गलत टेस्ट: 11

प्रति प्रयास पास दर: 56.1%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

2.36s

प्रतिक्रिया समय (अधिकतम): 12.24s

प्रतिक्रिया समय (कुल): 51.88s

गलत उत्तर: 11

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#91 GPT-5.5

none

लागत: $0.090
समय: 54.3s
टोकन: 3,063 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-07-16 22:34 नया टेस्ट जोड़ा गया	6.9	10.0	$0.544	वर्तमान रन
2026-06-04 13:46 नया टेस्ट जोड़ा गया	6.4	10.0	$0.231	तुलना करें
2026-05-22 00:19 सूट बदला गया	6.5	10.0	$0.217	तुलना करें
2026-04-24 19:59 पहला रन	6.8	लागू नहीं	$0.195	तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

कीमत का इतिहास

OpenRouter से इस मॉडल का ऐतिहासिक मूल्य डेटा।

तारीख	इनपुट कीमत	आउटपुट कीमत
2026-06-04 15:40	$5.000 / 1M	$30.000 / 1M

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

GPT-5.5nonevsStep 3.7 Flashhigh GPT-5.5nonevsGemini 3.5 Flashminimal GPT-5.5nonevsQwen3.6 Flashmedium GPT-5.5nonevsGemini 3 Flash Previewnone GPT-5.5nonevsMiMo-V2.5-Promedium GPT-5.5nonevsQwen3.6 35B A3Bmedium GPT-5.5nonevsGPT-5.6 Solnone GPT-5.5nonevsGemini 3.5 Flash-Litelow GPT-5.5nonevsDeepSeek V4 Pronone GPT-5.5nonevsLongCat 2.0low

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	6.9	7.9
कोडिंग	5.5	10.0
संयुक्त	6.5	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	2.9	7.2
Samanya Buddhimatta	10.0	10.0
निर्देश पालन	6.2	5.8
पहेली समाधान	7.7	10.0
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

GPT-5.5

Hamster playing table tennis

#91 GPT-5.5

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल