AI BENCHY तुलना

OpenAI: GPT-5.3-Codex vs OpenAI: GPT-5.5

सारांश

GPT-5.3-Codex vs GPT-5.5 benchmark तुलना: GPT-5.5 average score में आगे है: 9.0 vs 8.9. GPT-5.3-Codex की benchmark लागत कम है: $0.740 vs $3.679. GPT-5.3-Codex तेज है: 16.22s vs 37.98s, pass rates 82.5% vs 87.3%.

अनुशंसित मॉडल: GPT-5.3-Codex - Its score stays close to the best score here (8.9 vs 9.0), while costing about 5.0x less than GPT-5.5.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-18

मेट्रिक	GPT-5.3-Codex GPT-5.3-Codex medium रिलीज़: 2026-02-05	GPT-5.5 GPT-5.5 medium रिलीज़: 2026-04-24

मेट्रिक	GPT-5.3-Codex GPT-5.3-Codex medium रिलीज़: 2026-02-05	GPT-5.5 GPT-5.5 medium रिलीज़: 2026-04-24
स्कोर	8.9	9.0
रैंक	#10	#9
विश्वसनीयता	10.0	10.0
संगति	8.5	8.9
सही परीक्षण
प्रति प्रयास पास दर	82.5%	87.3%
अस्थिर टेस्ट	4	3
कुल रन	63	63
प्रति परिणाम लागत	4.932	21.638
कुल लागत	$0.740	$3.679
इनपुट कीमत	$1.750 / 1M	$5.000 / 1M
आउटपुट कीमत	$14.000 / 1M	$30.000 / 1M
कुल इनपुट टोकन	34,299	34,212
आउटपुट टोकन	2,357	1,985
रीजनिंग टोकन	46,189	114,925
प्रतिक्रिया समय (औसत)	16.22s	37.98s
प्रतिक्रिया समय (अधिकतम)	100.93s	332.10s
प्रतिक्रिया समय (कुल)	340.67s	797.60s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#10 GPT-5.3-Codex

medium

लागत: $0.049
समय: 54.9s
टोकन: 3,580 tok

#9 GPT-5.5

medium

लागत: $0.112
समय: 71.9s
टोकन: 3,807 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	8.7	7.9	91.7%	1		4.16s	606	240	1,722
GPT-5.5	10.0	10.0	100.0%	0		4.66s	606	250	1,335

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.50s	7,302	535	10,890
GPT-5.5	8.8	7.8	88.9%	1		59.77s	7,305	362	24,959

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.56s	11,019	364	2,731
GPT-5.5	10.0	10.0	100.0%	0		19.29s	11,019	312	2,841

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.07s	7,140	234	728
GPT-5.5	10.0	10.0	100.0%	0		4.18s	7,140	234	593

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	5.9	7.2	55.6%	1		64.31s	813	64	25,308
GPT-5.5	5.3	7.2	44.4%	1		164.14s	723	67	79,625

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	4.6	10.0	0.0%	0		4.87s	477	187	331
GPT-5.5	10.0	10.0	100.0%	0		4.16s	477	138	223

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	660	93	693
GPT-5.5	10.0	10.0	100.0%	0		3.36s	660	93	538

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	9.0	7.9	88.9%	1		5.05s	642	356	1,593
GPT-5.5	10.0	10.0	100.0%	0		6.76s	642	241	2,225

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	5,445	254	492
GPT-5.5	10.0	10.0	100.0%	0		10.57s	5,445	258	832

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	2.8	1.6	33.3%	1		14.43s	195	30	1,701
GPT-5.5	2.8	1.6	33.3%	1		37.86s	195	30	1,754

त्वरित तुलना

तुलना जोड़ी बदलें

Gemini 3.5 FlashlowvsGPT-5.5medium Gemini 3.5 FlashlowvsGPT-5.3-Codexmedium DeepSeek V4 FlashhighvsGPT-5.3-Codexmedium DeepSeek V4 FlashhighvsGPT-5.5medium Gemini 3.5 FlashhighvsGPT-5.5medium Gemini 3.5 FlashhighvsGPT-5.3-Codexmedium GPT-5.3-CodexmediumvsStep 3.7 Flashlow GPT-5.5mediumvsStep 3.7 Flashlow DeepSeek V4 ProhighvsGPT-5.3-Codexmedium DeepSeek V4 ProhighvsGPT-5.5medium Gemini 3 Flash PreviewlowvsGPT-5.3-Codexmedium Gemini 3 Flash PreviewlowvsGPT-5.5medium