AI BENCHY तुलना

OpenAI: GPT-5.3-Codex vs OpenAI: GPT-5.5

सारांश

GPT-5.3-Codex vs GPT-5.5 benchmark तुलना: GPT-5.5 average score में आगे है: 9.3 vs 8.9. GPT-5.3-Codex की benchmark लागत कम है: $0.740 vs $0.907. GPT-5.5 तेज है: 9.76s vs 16.22s, pass rates 82.5% vs 85.7%.

अनुशंसित मॉडल: GPT-5.5 - It has the best score here (9.3), while responding about 1.7x faster than GPT-5.3-Codex.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-12

मेट्रिक	GPT-5.3-Codex GPT-5.3-Codex medium रिलीज़: 2026-02-05	GPT-5.5 GPT-5.5 low रिलीज़: 2026-04-24

मेट्रिक	GPT-5.3-Codex GPT-5.3-Codex medium रिलीज़: 2026-02-05	GPT-5.5 GPT-5.5 low रिलीज़: 2026-04-24
स्कोर	8.9	9.3
रैंक	#13	#5
विश्वसनीयता	10.0	10.0
संगति	8.5	10.0
सही परीक्षण
प्रति प्रयास पास दर	82.5%	85.7%
अस्थिर टेस्ट	4	0
कुल रन	63	63
प्रति परिणाम लागत	4.932	5.035
कुल लागत	$0.740	$0.907
इनपुट कीमत	$1.750 / 1M	$5.000 / 1M
आउटपुट कीमत	$14.000 / 1M	$30.000 / 1M
कुल इनपुट टोकन	34,299	34,209
आउटपुट टोकन	2,357	2,046
रीजनिंग टोकन	46,189	22,460
प्रतिक्रिया समय (औसत)	16.22s	9.76s
प्रतिक्रिया समय (अधिकतम)	100.93s	56.19s
प्रतिक्रिया समय (कुल)	340.67s	204.92s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#13 GPT-5.3-Codex

medium

Cost: $0.049
Time: 54.9s
Tokens: 3,580 tok

#5 GPT-5.5

low

Cost: $0.068
Time: 37.0s
Tokens: 2,339 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	8.7	7.9	91.7%	1		4.16s	606	240	1,722
GPT-5.5	10.0	10.0	100.0%	0		4.41s	606	238	1,020

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.50s	7,302	535	10,890
GPT-5.5	10.0	10.0	100.0%	0		15.04s	7,302	423	6,402

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.56s	11,019	364	2,731
GPT-5.5	10.0	10.0	100.0%	0		9.56s	11,019	303	717

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.07s	7,140	234	728
GPT-5.5	10.0	10.0	100.0%	0		3.28s	7,140	228	157

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	5.9	7.2	55.6%	1		64.31s	813	64	25,308
GPT-5.5	5.3	10.0	33.3%	0		28.05s	723	69	11,609

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	4.6	10.0	0.0%	0		4.87s	477	187	331
GPT-5.5	10.0	10.0	100.0%	0		5.17s	477	133	245

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	660	93	693
GPT-5.5	9.9	10.0	100.0%	0		3.74s	660	93	415

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	9.0	7.9	88.9%	1		5.05s	642	356	1,593
GPT-5.5	10.0	10.0	100.0%	0		4.74s	642	279	954

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	5,445	254	492
GPT-5.5	10.0	10.0	100.0%	0		4.96s	5,445	250	101

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	2.8	1.6	33.3%	1		14.43s	195	30	1,701
GPT-5.5	3.0	10.0	0.0%	0		10.06s	195	30	840

त्वरित तुलना

तुलना जोड़ी बदलें

GPT-5.5lowvsQwen3.7 Maxmedium Claude Fable 5mediumvsGPT-5.5low Gemini 3.1 Pro PreviewmediumvsGPT-5.5low Gemini 3.5 FlashmediumvsGPT-5.5low Gemini 3 Flash PreviewmediumvsGPT-5.5low Gemini 3.5 FlashlowvsGPT-5.3-Codexmedium GPT-5.5lowvsQwen3.6 Max Previewmedium Claude Opus 4.8mediumvsGPT-5.5low Gemini 3.5 FlashhighvsGPT-5.5low Claude Opus 4.7mediumvsGPT-5.5low DeepSeek V4 FlashhighvsGPT-5.3-Codexmedium GPT-5.5lowvsGLM 5medium