AI BENCHY Compare

OpenAI: GPT-5.5 vs Qwen: Qwen3.5-9B

خلاصہ

GPT-5.5 vs Qwen3.5-9B benchmark موازنہ: GPT-5.5 average score میں آگے ہے: 9.3 vs 5.1. Qwen3.5-9B کی benchmark لاگت کم ہے: $0.006 vs $0.907. Qwen3.5-9B تیز ہے: 1.89s vs 9.76s، pass rates 85.7% vs 20.6%.

تجویز کردہ ماڈل: GPT-5.5 - It has the strongest score in this comparison (9.3) and the best overall balance of cost and response time across all 2 models.

بینچ مارکس AI BENCHY ٹیسٹ سوئٹس سے اس وقت تیار کیے گئے: 2026-06-18

میٹرک	GPT-5.5 GPT-5.5 low اجرا: 2026-04-24	Qwen3.5-9B Qwen3.5-9B none اجرا: 2026-03-02

میٹرک	GPT-5.5 GPT-5.5 low اجرا: 2026-04-24	Qwen3.5-9B Qwen3.5-9B none اجرا: 2026-03-02
اسکور	9.3	5.1
درجہ	#4	#135
اعتماد پذیری	10.0	10.0
تسلسل	10.0	9.7
درست ٹیسٹس
فی کوشش کامیابی کی شرح	85.7%	20.6%
غیر مستحکم ٹیسٹ	0	1
کل رنز	63	63
فی نتیجہ لاگت	5.035	0.123
کل لاگت	$0.907	$0.006
ان پٹ قیمت	$5.000 / 1M	$0.100 / 1M
آؤٹ پٹ قیمت	$30.000 / 1M	$0.150 / 1M
کل ان پٹ ٹوکنز	34,209	48,041
آؤٹ پٹ ٹوکنز	2,046	3,952
ریزننگ ٹوکنز	22,460	0
ردِعمل کا وقت (اوسط)	9.76s	1.89s
ردِعمل کا وقت (زیادہ سے زیادہ)	56.19s	6.03s
ردِعمل کا وقت (کل)	204.92s	39.68s

جنریشن شوکیس

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#4 GPT-5.5

low

لاگت: $0.068
وقت: 37.0s
ٹوکنز: 2,339 tok

#135 Qwen3.5-9B

none

غلط SVG

لاگت: $0.000
وقت: 300.0s
ٹوکنز: 0 tok

اسکور کے لحاظ سے سرفہرست ماڈلز

اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط)

اسکور vs ردِعمل کا وقت (اوسط)

کل آؤٹ پٹ ٹوکنز

اسکور vs کل آؤٹ پٹ ٹوکنز

زمرہ وار تفصیل

اینٹی اے آئی چالیں	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	10.0	10.0	100.0%	0		4.41s	606	238	1,020
Qwen3.5-9B	3.1	9.9	0.0%	0		1.71s	696	582	0

کوڈنگ	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	10.0	10.0	100.0%	0		15.04s	7,302	423	6,402
Qwen3.5-9B	3.9	7.8	11.1%	1		5.60s	7,913	1,042	0

مشترکہ	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	10.0	10.0	100.0%	0		9.56s	11,019	303	717
Qwen3.5-9B	3.0	10.0	0.0%	0		5.91s	20,397	1,255	0

ڈیٹا پارسنگ اور استخراج	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	10.0	10.0	100.0%	0		3.28s	7,140	228	157
Qwen3.5-9B	10.0	10.0	100.0%	0		847ms	7,788	249	0

ڈومین مخصوص	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	5.3	10.0	33.3%	0		28.05s	723	69	11,609
Qwen3.5-9B	3.0	10.0	0.0%	0		464ms	789	24	0

عمومی ذہانت	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	10.0	10.0	100.0%	0		5.17s	477	133	245
Qwen3.5-9B	4.4	9.9	0.0%	0		552ms	522	99	0

ہدایات کی پیروی	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	9.9	10.0	100.0%	0		3.74s	660	93	415
Qwen3.5-9B	6.5	10.0	50.0%	0		514ms	711	75	0

پہیلی حل کرنا	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	10.0	10.0	100.0%	0		4.74s	642	279	954
Qwen3.5-9B	3.2	10.0	0.0%	0		621ms	714	347	0

ٹول کالنگ	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	10.0	10.0	100.0%	0		4.96s	5,445	250	101
Qwen3.5-9B	10.0	10.0	100.0%	0		1.27s	8,301	273	0

معلومات عامہ	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	3.0	10.0	0.0%	0		10.06s	195	30	840
Qwen3.5-9B	3.0	10.0	0.0%	0		2.32s	210	6	0

فوری موازنہ

موازنہ کی جوڑی تبدیل کریں

Mistral Small 4mediumvsQwen3.5-9Bnone GPT-5.5lowvsQwen3.7 Maxmedium MiniMax M2.7mediumvsQwen3.5-9Bnone Claude Fable 5mediumvsGPT-5.5low Gemini 3.1 Pro PreviewmediumvsGPT-5.5low CobuddymediumvsQwen3.5-9Bnone Gemini 3.5 FlashmediumvsGPT-5.5low Gemini 3 Flash PreviewmediumvsGPT-5.5low MiniMax M2.5mediumvsQwen3.5-9Bnone GPT-5.5lowvsQwen3.6 Max Previewmedium Claude Opus 4.8mediumvsGPT-5.5low Gemini 3.5 FlashhighvsGPT-5.5low