AI BENCHY Compare

OpenAI: GPT-5.3-Codex vs Qwen: Qwen3.6 Max Preview

सारांश

GPT-5.3-Codex vs Qwen3.6 Max Preview benchmark तुलना: GPT-5.3-Codex average score मध्ये पुढे आहे: 8.9 vs 8.9. GPT-5.3-Codex चा benchmark खर्च कमी आहे: $0.740 vs $0.960. GPT-5.3-Codex वेगवान आहे: 16.22s vs 59.63s, pass rates 82.5% vs 81.0%.

शिफारस केलेले मॉडेल: GPT-5.3-Codex - It has the best score here (8.9), while responding about 3.7x faster than Qwen3.6 Max Preview.

AI BENCHY टेस्ट सूटमधून बेंचमार्क या वेळी तयार झाले: 2026-06-18

मेट्रिक	GPT-5.3-Codex GPT-5.3-Codex medium प्रकाशन: 2026-02-05	Qwen3.6 Max Preview Qwen3.6 Max Preview medium प्रकाशन: 2026-04-20

मेट्रिक	GPT-5.3-Codex GPT-5.3-Codex medium प्रकाशन: 2026-02-05	Qwen3.6 Max Preview Qwen3.6 Max Preview medium प्रकाशन: 2026-04-20
स्कोअर	8.9	8.9
क्रमांक	#10	#11
विश्वसनीयता	10.0	10.0
सुसंगतता	8.5	9.3
बरोबर चाचण्या
प्रति प्रयत्न पास दर	82.5%	81.0%
अस्थिर चाचण्या	4	2
एकूण रन	63	63
प्रति निकाल खर्च	4.932	7.024
एकूण खर्च	$0.740	$0.960
इनपुट किंमत	$1.750 / 1M	$1.040 / 1M
आउटपुट किंमत	$14.000 / 1M	$6.240 / 1M
एकूण इनपुट टोकन्स	34,299	42,362
आउटपुट टोकन्स	2,357	2,273
रिझनिंग टोकन्स	46,189	144,367
प्रतिसाद वेळ (सरासरी)	16.22s	59.63s
प्रतिसाद वेळ (कमाल)	100.93s	238.07s
प्रतिसाद वेळ (एकूण)	340.67s	1252.17s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#10 GPT-5.3-Codex

medium

खर्च: $0.049
वेळ: 54.9s
टोकन्स: 3,580 tok

#11 Qwen3.6 Max Preview

medium

खर्च: $0.024
वेळ: 76.5s
टोकन्स: 3,861 tok

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

अँटी-एआय युक्त्या	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.3-Codex	8.7	7.9	91.7%	1		4.16s	606	240	1,722
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		22.13s	672	228	10,075

कोडिंग	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.50s	7,302	535	10,890
Qwen3.6 Max Preview	8.8	7.8	88.9%	1		146.48s	7,895	427	52,957

संयुक्त	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.56s	11,019	364	2,731
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		121.49s	14,934	390	14,575

डेटा पार्सिंग आणि निष्कर्षण	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.07s	7,140	234	728
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		41.15s	7,782	270	10,106

डोमेन-विशिष्ट	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.3-Codex	5.9	7.2	55.6%	1		64.31s	813	64	25,308
Qwen3.6 Max Preview	2.9	7.2	11.1%	1		95.91s	771	60	30,371

Samanya Buddhimatta	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.3-Codex	4.6	10.0	0.0%	0		4.87s	477	187	331
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		32.24s	516	129	3,510

सूचनांचे पालन	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	660	93	693
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		24.31s	699	103	5,848

कोडी सोडवणे	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.3-Codex	9.0	7.9	88.9%	1		5.05s	642	356	1,593
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		24.32s	696	329	7,693

टूल कॉलिंग	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	5,445	254	492
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		18.32s	8,193	309	1,571

सामान्य ज्ञान	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.3-Codex	2.8	1.6	33.3%	1		14.43s	195	30	1,701
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		60.56s	204	28	7,661

झटपट तुलना

तुलना जोडी बदला

Gemini 3.5 FlashlowvsGPT-5.3-Codexmedium Gemini 3.5 FlashlowvsQwen3.6 Max Previewmedium GPT-5.2 ChatnonevsQwen3.6 Max Previewmedium GPT-5.5lowvsQwen3.6 Max Previewmedium DeepSeek V4 FlashhighvsQwen3.6 Max Previewmedium DeepSeek V4 FlashhighvsGPT-5.3-Codexmedium Gemini 3.5 FlashhighvsGPT-5.3-Codexmedium Gemini 3.5 FlashhighvsQwen3.6 Max Previewmedium Qwen3.6 Max PreviewmediumvsStep 3.7 Flashlow GPT-5.3-CodexmediumvsStep 3.7 Flashlow DeepSeek V4 ProhighvsQwen3.6 Max Previewmedium DeepSeek V4 ProhighvsGPT-5.3-Codexmedium