GPT-5.3-Codex

OpenAI रिलीज़: 2026-02-05 परीक्षण किया गया: 2026-04-11 01:44 openai/gpt-5.3-codex::medium

सारांश

GPT-5.3-Codex AI BENCHY पर 8.6 स्कोर करता है और #7 पर है। इसकी reliability लागू नहीं, pass rate 83.3%, कुल लागत $0.573, और औसत response time 15.38s है।

GPT-5.3-Codex को अलग क्या बनाता है: इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है।

स्कोर

8.6

संगति

8.7

विश्वसनीयता

लागू नहीं

कुल लागत (वर्तमान कीमत)

$0.573

कुल आउटपुट टोकन

37,458

कुल इनपुट टोकन

इनपुट कीमत

$1.750 / 1M

आउटपुट कीमत

$14.000 / 1M

सही परीक्षण

गलत टेस्ट: 5

प्रति प्रयास पास दर: 83.3%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

15.38s

प्रतिक्रिया समय (अधिकतम): 100.93s

प्रतिक्रिया समय (कुल): 276.91s

गलत उत्तर: 3 निर्देशों का पालन नहीं किया: 2

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#7 GPT-5.3-Codex

medium

लागत: $0.049
समय: 54.9s
टोकन: 3,580 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-06-04 13:45 नया टेस्ट जोड़ा गया	8.4	10.0	$0.740	तुलना करें
2026-05-22 00:19 दोबारा परीक्षण	8.3	10.0	$0.685	तुलना करें
2026-04-11 01:44 पहला दर्ज रन	8.6	लागू नहीं	$0.573	वर्तमान रन

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-04-11 01:44 · पहला दर्ज रन	8.6	8.7	लागू नहीं	13/18	3	37,458	$0.573	15.38s
2026-05-22 00:19 · दोबारा परीक्षण	8.3	8.4	10.0	14/20	4	44,948	$0.685	15.97s
अंतर	+0.2	+0.3		-1	-1	-7490	-$0.113	-581ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

GPT-5.3-CodexmediumvsGPT-5.5medium GPT-5.3-CodexmediumvsQwen3.6 Max Previewmedium GPT-5.3-CodexmediumvsGemini 3.5 Flashmedium GPT-5.3-CodexmediumvsClaude Opus 4.8medium GPT-5.3-CodexmediumvsGemini 3.1 Pro Previewmedium GPT-5.3-CodexmediumvsClaude Opus 4.7medium GPT-5.3-CodexmediumvsGemini 3.5 Flashhigh GPT-5.3-CodexmediumvsGemini 3 Flash Previewmedium GPT-5.3-CodexmediumvsNemotron 3 Ultra 550b A55bmediumनिःशुल्क उपलब्ध GPT-5.3-CodexmediumvsGPT-5.5low

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	8.7	7.9
कोडिंग	10.0	10.0
संयुक्त	10.0	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.9	7.2
Samanya Buddhimatta	4.6	10.0
निर्देश पालन	10.0	10.0
पहेली समाधान	9.0	7.9
टूल कॉलिंग	10.0	10.0

GPT-5.3-Codex

Hamster playing table tennis

#7 GPT-5.3-Codex

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल