AI BENCHY तुलना

OpenAI: GPT-5.3-Codex vs Qwen: Qwen3.6 Max Preview

सारांश

GPT-5.3-Codex vs Qwen3.6 Max Preview benchmark तुलना: GPT-5.3-Codex average score में आगे है: 8.9 vs 8.9. GPT-5.3-Codex की benchmark लागत कम है: $0.740 vs $0.960. GPT-5.3-Codex तेज है: 16.22s vs 59.63s, pass rates 82.5% vs 81.0%.

अनुशंसित मॉडल: GPT-5.3-Codex - It has the best score here (8.9), while responding about 3.7x faster than Qwen3.6 Max Preview.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-18

मेट्रिक	GPT-5.3-Codex GPT-5.3-Codex medium रिलीज़: 2026-02-05	Qwen3.6 Max Preview Qwen3.6 Max Preview medium रिलीज़: 2026-04-20

मेट्रिक	GPT-5.3-Codex GPT-5.3-Codex medium रिलीज़: 2026-02-05	Qwen3.6 Max Preview Qwen3.6 Max Preview medium रिलीज़: 2026-04-20
स्कोर	8.9	8.9
रैंक	#10	#11
विश्वसनीयता	10.0	10.0
संगति	8.5	9.3
सही परीक्षण
प्रति प्रयास पास दर	82.5%	81.0%
अस्थिर टेस्ट	4	2
कुल रन	63	63
प्रति परिणाम लागत	4.932	7.024
कुल लागत	$0.740	$0.960
इनपुट कीमत	$1.750 / 1M	$1.040 / 1M
आउटपुट कीमत	$14.000 / 1M	$6.240 / 1M
कुल इनपुट टोकन	34,299	42,362
आउटपुट टोकन	2,357	2,273
रीजनिंग टोकन	46,189	144,367
प्रतिक्रिया समय (औसत)	16.22s	59.63s
प्रतिक्रिया समय (अधिकतम)	100.93s	238.07s
प्रतिक्रिया समय (कुल)	340.67s	1252.17s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#10 GPT-5.3-Codex

medium

लागत: $0.049
समय: 54.9s
टोकन: 3,580 tok

#11 Qwen3.6 Max Preview

medium

लागत: $0.024
समय: 76.5s
टोकन: 3,861 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	8.7	7.9	91.7%	1		4.16s	606	240	1,722
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		22.13s	672	228	10,075

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.50s	7,302	535	10,890
Qwen3.6 Max Preview	8.8	7.8	88.9%	1		146.48s	7,895	427	52,957

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.56s	11,019	364	2,731
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		121.49s	14,934	390	14,575

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.07s	7,140	234	728
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		41.15s	7,782	270	10,106

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	5.9	7.2	55.6%	1		64.31s	813	64	25,308
Qwen3.6 Max Preview	2.9	7.2	11.1%	1		95.91s	771	60	30,371

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	4.6	10.0	0.0%	0		4.87s	477	187	331
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		32.24s	516	129	3,510

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	660	93	693
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		24.31s	699	103	5,848

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	9.0	7.9	88.9%	1		5.05s	642	356	1,593
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		24.32s	696	329	7,693

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	5,445	254	492
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		18.32s	8,193	309	1,571

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3-Codex	2.8	1.6	33.3%	1		14.43s	195	30	1,701
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		60.56s	204	28	7,661

त्वरित तुलना

तुलना जोड़ी बदलें

Gemini 3.5 FlashlowvsGPT-5.3-Codexmedium Gemini 3.5 FlashlowvsQwen3.6 Max Previewmedium GPT-5.2 ChatnonevsQwen3.6 Max Previewmedium GPT-5.5lowvsQwen3.6 Max Previewmedium DeepSeek V4 FlashhighvsQwen3.6 Max Previewmedium DeepSeek V4 FlashhighvsGPT-5.3-Codexmedium Gemini 3.5 FlashhighvsGPT-5.3-Codexmedium Gemini 3.5 FlashhighvsQwen3.6 Max Previewmedium Qwen3.6 Max PreviewmediumvsStep 3.7 Flashlow GPT-5.3-CodexmediumvsStep 3.7 Flashlow DeepSeek V4 ProhighvsQwen3.6 Max Previewmedium DeepSeek V4 ProhighvsGPT-5.3-Codexmedium