AI BENCHY Compare

OpenAI: GPT-5.2 vs Qwen: Qwen3.5-Flash

सारांश

GPT-5.2 vs Qwen3.5-Flash benchmark तुलना: GPT-5.2 average score मध्ये पुढे आहे: 8.4 vs 6.8. Qwen3.5-Flash चा benchmark खर्च कमी आहे: $0.080 vs $0.548. GPT-5.2 वेगवान आहे: 16.88s vs 63.29s, pass rates 71.4% vs 71.4%.

शिफारस केलेले मॉडेल: GPT-5.2 - It has the best score here (8.4), while responding about 3.7x faster than Qwen3.5-Flash.

AI BENCHY टेस्ट सूटमधून बेंचमार्क या वेळी तयार झाले: 2026-06-18

मेट्रिक	GPT-5.2 GPT-5.2 medium प्रकाशन: 2025-12-11	Qwen3.5-Flash Qwen3.5-Flash medium प्रकाशन: 2026-02-24

मेट्रिक	GPT-5.2 GPT-5.2 medium प्रकाशन: 2025-12-11	Qwen3.5-Flash Qwen3.5-Flash medium प्रकाशन: 2026-02-24
स्कोअर	8.4	6.8
क्रमांक	#22	#70
विश्वसनीयता	10.0	10.0
सुसंगतता	8.4	8.1
बरोबर चाचण्या
प्रति प्रयत्न पास दर	71.4%	71.4%
अस्थिर चाचण्या	4	5
एकूण रन	63	63
प्रति निकाल खर्च	4.209	0.871
एकूण खर्च	$0.548	$0.080
इनपुट किंमत	$1.750 / 1M	$0.065 / 1M
आउटपुट किंमत	$14.000 / 1M	$0.260 / 1M
एकूण इनपुट टोकन्स	33,967	38,926
आउटपुट टोकन्स	2,901	2,088
रिझनिंग टोकन्स	31,932	294,598
प्रतिसाद वेळ (सरासरी)	16.88s	63.29s
प्रतिसाद वेळ (कमाल)	77.80s	234.29s
प्रतिसाद वेळ (एकूण)	236.34s	1265.85s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#22 GPT-5.2

medium

खर्च: $0.047
वेळ: 49.2s
टोकन्स: 3,396 tok

#70 Qwen3.5-Flash

medium

खर्च: $0.002
वेळ: 25.8s
टोकन्स: 4,294 tok

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

अँटी-एआय युक्त्या	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.2	6.5	8.0	58.3%	1		7.81s	606	567	2,002
Qwen3.5-Flash	10.0	10.0	100.0%	0		59.11s	672	383	32,992

कोडिंग	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.2	10.0	10.0	100.0%	0		22.73s	7,302	511	11,912
Qwen3.5-Flash	3.7	7.2	22.2%	1		58.87s	6,685	302	90,081

संयुक्त	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.2	10.0	10.0	100.0%	0		14.06s	11,019	291	1,757
Qwen3.5-Flash	10.0	10.0	100.0%	0		17.78s	14,934	483	8,270

डेटा पार्सिंग आणि निष्कर्षण	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.2	10.0	10.0	100.0%	0		3.15s	7,140	234	420
Qwen3.5-Flash	7.3	5.9	83.3%	1		56.99s	6,061	235	16,237

डोमेन-विशिष्ट	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.2	5.9	7.2	55.6%	1		77.80s	473	42	10,342
Qwen3.5-Flash	5.3	7.2	44.4%	1		146.50s	581	58	43,615

Samanya Buddhimatta	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.2	3.7	9.7	0.0%	0		4.32s	477	162	269
Qwen3.5-Flash	6.1	3.1	66.7%	1		40.05s	516	99	38,486

सूचनांचे पालन	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.2	9.9	10.0	100.0%	0		3.12s	660	94	614
Qwen3.5-Flash	10.0	10.0	100.0%	0		63.49s	699	98	14,139

कोडी सोडवणे	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.2	7.5	7.3	77.8%	1		5.80s	642	735	924
Qwen3.5-Flash	8.2	7.2	88.9%	1		27.61s	381	89	12,457

टूल कॉलिंग	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.2	4.7	1.6	66.7%	1		10.30s	5,453	239	469
Qwen3.5-Flash	10.0	10.0	100.0%	0		10.33s	8,193	309	1,284

सामान्य ज्ञान	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
GPT-5.2	3.0	10.0	0.0%	0		28.18s	195	26	3,223
Qwen3.5-Flash	3.0	10.0	0.0%	0		48.98s	204	32	37,037

झटपट तुलना

तुलना जोडी बदला