#10

GPT-5.5

OpenAI प्रकाशन: 2026-04-24 चाचणी तारीख: 2026-05-08 15:31 openai/gpt-5.5::low

(medium) (low) (none)

सारांश

GPT-5.5 AI BENCHY वर 8.9 स्कोर करते आणि #10 वर आहे. याची reliability 10.0, pass rate 84.2%, एकूण खर्च $0.706, आणि सरासरी response time 8.80s आहे.

स्कोअर

8.9

सुसंगतता

10.0

विश्वसनीयता

10.0

एकूण खर्च (सध्याची किंमत)

$0.706

एकूण आउटपुट टोकन्स

18,922

एकूण इनपुट टोकन्स

इनपुट किंमत

$5.000 / 1M

आउटपुट किंमत

$30.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 3

प्रति प्रयत्न पास दर: 84.2%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

8.80s

प्रतिसाद वेळ (कमाल): 56.19s

प्रतिसाद वेळ (एकूण): 167.26s

चुकीचे उत्तर: 3

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#10 GPT-5.5

low

खर्च: $0.068
वेळ: 37.0s
टोकन्स: 2,339 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-07-16 22:35 नवीन चाचणी जोडली	9.3	10.0	$1.253	तुलना करा
2026-06-04 13:47 नवीन चाचणी जोडली	9.0	10.0	$0.907	तुलना करा
2026-05-22 13:31 सूट बदलला	8.9	10.0	$0.822	तुलना करा
2026-05-08 15:31 सूट बदलला	8.9	10.0	$0.706	सध्याची रन
2026-04-26 10:23 पहिला रन	9.0	10.0	$0.681	तुलना करा

या रनमध्ये वेगळा बेंचमार्क सूट वापरला गेला. ऐतिहासिक बदल वाचताना सूटमधील बदल लक्षात घ्या.

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-05-08 15:31 · सूट बदलला	8.9	10.0	10.0	16/19	0	18,922	$0.706	8.80s
2026-04-26 10:23 · पहिला रन	9.0	9.6	10.0	15/18	1	18,093	$0.681	8.39s
फरक	-0.2	+0.4	0.0	+1	-1	+829	+$0.026	+414ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

GPT-5.5lowvsGPT-5.6 Solhigh GPT-5.5lowvsGemini 3.1 Pro Previewmedium GPT-5.5lowvsGPT-5.6 Solmedium GPT-5.5lowvsClaude Opus 5high GPT-5.5lowvsGemini 3.6 Flashlow GPT-5.5lowvsClaude Opus 5medium GPT-5.5lowvsGPT-5.6 Sollow GPT-5.5lowvsQwen3.7 Maxmedium GPT-5.5lowvsGemini 3.5 Flashhigh GPT-5.5lowvsGemini 3.5 Flashmedium

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	10.0	10.0
कोडिंग	10.0	10.0
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	10.0
Samanya Buddhimatta	10.0	10.0
सूचनांचे पालन	9.9	10.0
कोडी सोडवणे	10.0	10.0
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

GPT-5.5

Hamster playing table tennis

#10 GPT-5.5

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स