AI BENCHY तुलना

OpenAI: GPT-5.3 Chat vs Qwen: Qwen3.6 Plus

सारांश

GPT-5.3 Chat vs Qwen3.6 Plus benchmark तुलना: Qwen3.6 Plus average score में आगे है: 7.8 vs 7.5. Qwen3.6 Plus की benchmark लागत कम है: $0.294 vs $0.433. GPT-5.3 Chat तेज है: 6.34s vs 30.70s, pass rates 66.7% vs 69.8%.

अनुशंसित मॉडल: GPT-5.3 Chat - Its score stays close to the best score here (7.5 vs 7.8), while responding about 4.8x faster than Qwen3.6 Plus.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-07-02

मेट्रिक	GPT-5.3 Chat GPT-5.3 Chat none रिलीज़: 2026-03-03	Qwen3.6 Plus Qwen3.6 Plus medium रिलीज़: 2026-04-20

मेट्रिक	GPT-5.3 Chat GPT-5.3 Chat none रिलीज़: 2026-03-03	Qwen3.6 Plus Qwen3.6 Plus medium रिलीज़: 2026-04-20
स्कोर	7.5	7.8
रैंक	#47	#31
विश्वसनीयता	10.0	10.0
संगति	8.1	9.3
सही परीक्षण
प्रति प्रयास पास दर	66.7%	69.8%
अस्थिर टेस्ट	5	2
कुल रन	63	63
प्रति परिणाम लागत	3.605	0.831
कुल लागत	$0.433	$0.294
इनपुट कीमत	$1.750 / 1M	$0.325 / 1M
आउटपुट कीमत	$14.000 / 1M	$1.950 / 1M
कुल इनपुट टोकन	34,209	41,565
आउटपुट टोकन	26,617	1,853
रीजनिंग टोकन	0	141,973
प्रतिक्रिया समय (औसत)	6.34s	30.70s
प्रतिक्रिया समय (अधिकतम)	18.33s	201.68s
प्रतिक्रिया समय (कुल)	133.13s	613.99s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#47 GPT-5.3 Chat

none

लागत: $0.008
समय: 8.1s
टोकन: 634 tok

#31 Qwen3.6 Plus

medium

लागत: $0.024
समय: 219.0s
टोकन: 12,235 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3 Chat	6.7	8.1	58.3%	1		3.86s	606	3,167	0
Qwen3.6 Plus	10.0	10.0	100.0%	0		9.90s	672	207	7,557

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3 Chat	5.6	4.7	55.6%	2		10.52s	7,302	6,632	0
Qwen3.6 Plus	6.1	7.8	44.4%	1		153.12s	7,098	58	50,586

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	11,019	2,614	0
Qwen3.6 Plus	10.0	10.0	100.0%	0		34.95s	14,934	452	13,073

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.21s	7,140	942	0
Qwen3.6 Plus	10.0	10.0	100.0%	0		14.95s	7,782	270	10,706

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3 Chat	3.5	4.4	33.3%	2		13.01s	723	8,264	0
Qwen3.6 Plus	2.9	7.2	11.1%	1		29.59s	771	56	33,464

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3 Chat	4.6	10.0	0.0%	0		1.99s	477	319	0
Qwen3.6 Plus	5.1	10.0	0.0%	0		27.05s	516	111	5,232

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3 Chat	9.8	10.0	100.0%	0		3.51s	660	1,491	0
Qwen3.6 Plus	10.0	10.0	100.0%	0		7.54s	699	102	5,552

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.99s	642	1,758	0
Qwen3.6 Plus	10.0	10.0	100.0%	0		6.34s	696	309	6,712

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	5,445	861	0
Qwen3.6 Plus	10.0	10.0	100.0%	0		5.87s	8,193	267	1,330

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.3 Chat	3.0	10.0	0.0%	0		4.38s	195	569	0
Qwen3.6 Plus	3.0	10.0	0.0%	0		47.51s	204	21	7,761

त्वरित तुलना

तुलना जोड़ी बदलें

Mercury 2mediumvsGPT-5.3 Chatnone Kimi K2.5mediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsQwen3.6 Flashmedium DeepSeek V3.2mediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGrok Build 0.1medium DeepSeek V4 ProhighvsGPT-5.3 Chatnone Seed-2.0-MinimediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsMiMo-V2.5-Promedium MiniMax M3mediumvsGPT-5.3 Chatnone Claude Opus 4.8lowvsQwen3.6 Plusmedium Gemini 3 Flash PreviewlowvsGPT-5.3 Chatnone Qwen3.6 PlusmediumvsStep 3.7 Flashlow