GPT-5.5

OpenAI प्रकाशन: 2026-04-24 चाचणी तारीख: 2026-05-22 13:31 openai/gpt-5.5::low

(medium) (low) (none)

सारांश

GPT-5.5 AI BENCHY वर 8.9 स्कोर करते आणि #8 वर आहे. याची reliability 10.0, pass rate 85.0%, एकूण खर्च $0.822, आणि सरासरी response time 9.43s आहे.

स्कोअर

8.9

सुसंगतता

10.0

विश्वसनीयता

10.0

एकूण खर्च (सध्याची किंमत)

$0.822

एकूण आउटपुट टोकन्स

22,117

एकूण इनपुट टोकन्स

इनपुट किंमत

$5.000 / 1M

आउटपुट किंमत

$30.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 3

प्रति प्रयत्न पास दर: 85.0%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

9.43s

प्रतिसाद वेळ (कमाल): 56.19s

प्रतिसाद वेळ (एकूण): 188.66s

चुकीचे उत्तर: 3

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#8 GPT-5.5

low

खर्च: $0.068
वेळ: 37.0s
टोकन्स: 2,339 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-07-16 22:35 नवीन चाचणी जोडली	9.3	10.0	$1.253	तुलना करा
2026-06-04 13:47 नवीन चाचणी जोडली	9.0	10.0	$0.907	तुलना करा
2026-05-22 13:31 सूट बदलला	8.9	10.0	$0.822	सध्याची रन
2026-05-08 15:31 सूट बदलला	8.9	10.0	$0.706	तुलना करा
2026-04-26 10:23 पहिला रन	9.0	10.0	$0.681	तुलना करा

या रनमध्ये वेगळा बेंचमार्क सूट वापरला गेला. ऐतिहासिक बदल वाचताना सूटमधील बदल लक्षात घ्या.

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-05-22 13:31 · सूट बदलला	8.9	10.0	10.0	17/20	0	22,117	$0.822	9.43s
2026-04-26 10:23 · पहिला रन	9.0	9.6	10.0	15/18	1	18,093	$0.681	8.39s
फरक	-0.1	+0.4	0.0	+2	-1	+4024	+$0.142	+1043ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

GPT-5.5lowvsGPT-5.6 Solhigh GPT-5.5lowvsGemini 3.1 Pro Previewmedium GPT-5.5lowvsGPT-5.6 Solmedium GPT-5.5lowvsClaude Opus 5high GPT-5.5lowvsGemini 3.6 Flashlow GPT-5.5lowvsClaude Opus 5medium GPT-5.5lowvsGPT-5.6 Sollow GPT-5.5lowvsQwen3.7 Maxmedium GPT-5.5lowvsGemini 3.5 Flashhigh GPT-5.5lowvsGemini 3.5 Flashmedium

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	10.0	10.0
कोडिंग	10.0	10.0
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	10.0
Samanya Buddhimatta	10.0	10.0
सूचनांचे पालन	9.9	10.0
कोडी सोडवणे	10.0	10.0
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

GPT-5.5

Hamster playing table tennis

#8 GPT-5.5

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स