AI BENCHY Compare

OpenAI: GPT-5.2 vs Qwen: Qwen3.7 Plus

خلاصہ

GPT-5.2 vs Qwen3.7 Plus benchmark موازنہ: GPT-5.2 average score میں آگے ہے: 8.4 vs 8.2. Qwen3.7 Plus کی benchmark لاگت کم ہے: $0.177 vs $0.548. GPT-5.2 تیز ہے: 16.88s vs 38.95s، pass rates 71.4% vs 77.8%.

تجویز کردہ ماڈل: Qwen3.7 Plus - Its score stays close to the best score here (8.2 vs 8.4), while costing about 3.1x less than GPT-5.2.

بینچ مارکس AI BENCHY ٹیسٹ سوئٹس سے اس وقت تیار کیے گئے: 2026-06-18

میٹرک	GPT-5.2 GPT-5.2 medium اجرا: 2025-12-11	Qwen3.7 Plus Qwen3.7 Plus medium اجرا: 2026-06-03

میٹرک	GPT-5.2 GPT-5.2 medium اجرا: 2025-12-11	Qwen3.7 Plus Qwen3.7 Plus medium اجرا: 2026-06-03
اسکور	8.4	8.2
درجہ	#22	#25
اعتماد پذیری	10.0	10.0
تسلسل	8.4	9.1
درست ٹیسٹس
فی کوشش کامیابی کی شرح	71.4%	77.8%
غیر مستحکم ٹیسٹ	4	2
کل رنز	63	63
فی نتیجہ لاگت	4.209	1.474
کل لاگت	$0.548	$0.177
ان پٹ قیمت	$1.750 / 1M	$0.320 / 1M
آؤٹ پٹ قیمت	$14.000 / 1M	$1.280 / 1M
کل ان پٹ ٹوکنز	33,967	40,939
آؤٹ پٹ ٹوکنز	2,901	2,125
ریزننگ ٹوکنز	31,932	125,754
ردِعمل کا وقت (اوسط)	16.88s	38.95s
ردِعمل کا وقت (زیادہ سے زیادہ)	77.80s	178.04s
ردِعمل کا وقت (کل)	236.34s	817.85s

جنریشن شوکیس

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#22 GPT-5.2

medium

لاگت: $0.047
وقت: 49.2s
ٹوکنز: 3,396 tok

#25 Qwen3.7 Plus

medium

لاگت: $0.018
وقت: 193.2s
ٹوکنز: 10,821 tok

اسکور کے لحاظ سے سرفہرست ماڈلز

اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط)

اسکور vs ردِعمل کا وقت (اوسط)

کل آؤٹ پٹ ٹوکنز

اسکور vs کل آؤٹ پٹ ٹوکنز

زمرہ وار تفصیل

اینٹی اے آئی چالیں	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.2	6.5	8.0	58.3%	1		7.81s	606	567	2,002
Qwen3.7 Plus	10.0	10.0	100.0%	0		8.58s	672	195	5,065

کوڈنگ	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.2	10.0	10.0	100.0%	0		22.73s	7,302	511	11,912
Qwen3.7 Plus	6.1	6.6	55.6%	1		108.60s	6,472	414	43,576

مشترکہ	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.2	10.0	10.0	100.0%	0		14.06s	11,019	291	1,757
Qwen3.7 Plus	10.0	10.0	100.0%	0		65.24s	14,934	366	10,132

ڈیٹا پارسنگ اور استخراج	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.2	10.0	10.0	100.0%	0		3.15s	7,140	234	420
Qwen3.7 Plus	10.0	10.0	100.0%	0		21.75s	7,782	270	6,713

ڈومین مخصوص	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.2	5.9	7.2	55.6%	1		77.80s	473	42	10,342
Qwen3.7 Plus	3.6	7.2	22.2%	1		45.35s	771	57	27,073

عمومی ذہانت	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.2	3.7	9.7	0.0%	0		4.32s	477	162	269
Qwen3.7 Plus	10.0	10.0	100.0%	0		25.48s	516	123	3,998

ہدایات کی پیروی	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.2	9.9	10.0	100.0%	0		3.12s	660	94	614
Qwen3.7 Plus	10.0	10.0	100.0%	0		16.13s	699	102	5,013

پہیلی حل کرنا	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.2	7.5	7.3	77.8%	1		5.80s	642	735	924
Qwen3.7 Plus	10.0	10.0	100.0%	0		16.38s	696	280	7,312

ٹول کالنگ	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.2	4.7	1.6	66.7%	1		10.30s	5,453	239	469
Qwen3.7 Plus	10.0	10.0	100.0%	0		15.02s	8,193	292	1,831

معلومات عامہ	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.2	3.0	10.0	0.0%	0		28.18s	195	26	3,223
Qwen3.7 Plus	3.0	10.0	0.0%	0		91.07s	204	26	15,041

فوری موازنہ

موازنہ کی جوڑی تبدیل کریں

DeepSeek V4 FlashhighvsQwen3.7 Plusmedium DeepSeek V4 FlashhighvsGPT-5.2medium GPT-5.2 ChatnonevsQwen3.7 Plusmedium Qwen3.7 PlusmediumvsStep 3.7 Flashlow DeepSeek V4 ProhighvsQwen3.7 Plusmedium GPT-5.3 ChatnonevsQwen3.7 Plusmedium GPT-5.2mediumvsStep 3.7 Flashlow DeepSeek V4 ProhighvsGPT-5.2medium Gemini 3 Flash PreviewlowvsQwen3.7 Plusmedium Gemini 3.5 FlashlowvsGPT-5.2medium Claude Sonnet 4.6nonevsQwen3.7 Plusmedium Claude Opus 4.8nonevsQwen3.7 Plusmedium