AI BENCHY तुलना

OpenAI: GPT-5.2 vs Qwen: Qwen3.6 27B

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-05-22

मेट्रिक	GPT-5.2 GPT-5.2 medium रिलीज़: 2025-12-11	Qwen3.6 27B Qwen3.6 27B medium रिलीज़: 2026-04-20

मेट्रिक	GPT-5.2 GPT-5.2 medium रिलीज़: 2025-12-11	Qwen3.6 27B Qwen3.6 27B medium रिलीज़: 2026-04-20
स्कोर	7.4	6.6
रैंक	#57	#83
विश्वसनीयता	10.0	9.9
संगति	8.3	8.1
सही परीक्षण
प्रति प्रयास पास दर	70.0%	58.3%
अस्थिर टेस्ट	4	5
कुल रन	60	60
प्रति परिणाम लागत	4.081	3.015
कुल लागत	$0.490	$0.272
???? ???	$1.750 / 1M	$0.317 / 1M
????? ???	$14.000 / 1M	$3.200 / 1M
आउटपुट टोकन	2,754	13,007
रीजनिंग टोकन	28,303	105,697
प्रतिक्रिया समय (औसत)	16.44s	57.65s
प्रतिक्रिया समय (अधिकतम)	77.80s	168.22s
प्रतिक्रिया समय (कुल)	213.77s	1153.04s

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.2	6.5	8.0	58.3%	1		7.81s	567	2,002
Qwen3.6 27B	8.3	10.0	75.0%	0		12.62s	582	4,311

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.2	10.0	10.0	100.0%	0		23.15s	490	8,269
Qwen3.6 27B	6.6	10.0	50.0%	0		165.39s	4,760	26,668

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.2	10.0	10.0	100.0%	0		14.06s	291	1,757
Qwen3.6 27B	7.0	3.7	66.7%	1		83.07s	2,088	14,689

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.2	10.0	10.0	100.0%	0		3.15s	234	420
Qwen3.6 27B	3.5	1.4	50.0%	2		37.30s	568	9,404

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.2	5.9	7.2	55.6%	1		77.80s	42	10,342
Qwen3.6 27B	2.9	7.2	11.1%	1		73.38s	3,510	20,352

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.2	3.7	9.7	0.0%	0		4.32s	162	269
Qwen3.6 27B	6.5	3.4	66.7%	1		39.53s	81	3,045

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.2	9.9	10.0	100.0%	0		3.12s	94	614
Qwen3.6 27B	10.0	10.0	100.0%	0		37.96s	346	6,548

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.2	7.6	7.3	77.8%	1		5.47s	609	938
Qwen3.6 27B	7.7	10.0	66.7%	0		60.21s	281	11,919

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.2	4.7	1.6	66.7%	1		10.30s	239	469
Qwen3.6 27B	10.0	10.0	100.0%	0		16.88s	390	2,954

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
GPT-5.2	3.0	10.0	0.0%	0		28.18s	26	3,223
Qwen3.6 27B	3.0	10.0	0.0%	0		80.99s	401	5,807

त्वरित तुलना

तुलना जोड़ी बदलें

DeepSeek V4 Flashhighनिःशुल्क उपलब्धvsGPT-5.2medium Qwen3.6 27BmediumvsGrok Build 0.1none Gemini 3.1 Flash LitenonevsQwen3.6 27Bmedium GPT-5.5nonevsQwen3.6 27Bmedium Gemini 3.1 Flash LitelowvsGPT-5.2medium DeepSeek V4 ProhighvsQwen3.6 27Bmedium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.2medium Gemini 3.1 Flash LiteminimalvsQwen3.6 27Bmedium Gemma 4 31Bnoneनिःशुल्क उपलब्धvsQwen3.6 27Bmedium Ring-2.6-1TnonevsGPT-5.2medium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.2medium Gemini 3 Flash PreviewnonevsGPT-5.2medium