#11

GPT-5.5

OpenAI प्रकाशन: 2026-04-24 चाचणी तारीख: 2026-05-22 00:21 openai/gpt-5.5::medium

(medium) (low) (none)

सारांश

GPT-5.5 AI BENCHY वर 8.7 स्कोर करते आणि #11 वर आहे. याची reliability 10.0, pass rate 86.7%, एकूण खर्च $3.503, आणि सरासरी response time 37.89s आहे.

स्कोअर

8.7

सुसंगतता

8.8

विश्वसनीयता

10.0

एकूण खर्च (सध्याची किंमत)

$3.503

एकूण आउटपुट टोकन्स

111,483

एकूण इनपुट टोकन्स

इनपुट किंमत

$5.000 / 1M

आउटपुट किंमत

$30.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 4

प्रति प्रयत्न पास दर: 86.7%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

37.89s

प्रतिसाद वेळ (कमाल): 332.10s

प्रतिसाद वेळ (एकूण): 757.71s

चुकीचे उत्तर: 4

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#11 GPT-5.5

medium

खर्च: $0.112
वेळ: 71.9s
टोकन्स: 3,807 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-07-16 22:37 नवीन चाचणी जोडली	9.0	10.0	$4.137	तुलना करा
2026-06-04 13:48 नवीन चाचणी जोडली	8.8	10.0	$3.679	तुलना करा
2026-05-22 00:21 सूट बदलला	8.7	10.0	$3.503	सध्याची रन
2026-04-24 20:23 पहिला रन	9.0	लागू नाही	$2.884	तुलना करा

या रनमध्ये वेगळा बेंचमार्क सूट वापरला गेला. ऐतिहासिक बदल वाचताना सूटमधील बदल लक्षात घ्या.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

GPT-5.5mediumvsGemini 3.5 Flashmedium GPT-5.5mediumvsGemini 3.5 Flashlow GPT-5.5mediumvsQwen3.7 Maxmedium GPT-5.5mediumvsGrok 4.5high GPT-5.5mediumvsGemini 3.1 Pro Previewmedium GPT-5.5mediumvsGPT-5.3-Codexmedium GPT-5.5mediumvsGPT-5.5low GPT-5.5mediumvsClaude Opus 4.8medium GPT-5.5mediumvsGPT-5.6 Solhigh GPT-5.5mediumvsClaude Opus 4.7medium

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	10.0	10.0
कोडिंग	8.2	6.7
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	7.2
Samanya Buddhimatta	10.0	10.0
सूचनांचे पालन	10.0	10.0
कोडी सोडवणे	10.0	10.0
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	2.8	1.6

GPT-5.5

Hamster playing table tennis

#11 GPT-5.5

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स