عمومی ذہانت x غلط جواب درجہ بندی

دیکھیں کہ عمومی ذہانت میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ناکامیوں کی تعداد ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

Grok 4.5 1

ناکامی کی وجوہات

ہدایات پر عمل نہیں کیا78 غلط جواب59 API خرابی12 ٹائم آؤٹ4

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

59/59

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#20	Grok 4.5 low	X AI	1	6.1	$0.935	0/1	4.88s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.935 ردِعمل کا وقت (اوسط) 4.88s
#22	Grok 4.5 medium	X AI	1	6.5	$1.928	0/1	12.8s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $1.928 ردِعمل کا وقت (اوسط) 12.8s
#29	Step 3.7 Flash medium	Stepfun	1	4.0	$0.515	0/1	6.85s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.515 ردِعمل کا وقت (اوسط) 6.85s
#34	GPT-5.6 Terra high	OpenAI	1	5.1	$1.055	0/1	3.03s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $1.055 ردِعمل کا وقت (اوسط) 3.03s
#39	GPT-5.6 Terra medium	OpenAI	1	5.5	$0.676	0/1	2.37s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.676 ردِعمل کا وقت (اوسط) 2.37s
#44	GPT-5.6 Luna high	OpenAI	1	5.0	$1.017	0/1	3.65s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $1.017 ردِعمل کا وقت (اوسط) 3.65s
#48	Grok Build 0.1 medium	X AI	1	4.4	$1.097	0/1	18.4s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $1.097 ردِعمل کا وقت (اوسط) 18.4s
#49	GLM 5 Turbo medium	Z.ai	1	6.1	$0.323	0/1	10.1s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.323 ردِعمل کا وقت (اوسط) 10.1s
#50	GPT-5.6 Luna medium	OpenAI	1	5.1	$0.352	0/1	4.34s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.352 ردِعمل کا وقت (اوسط) 4.34s
#55	GPT-5.6 Terra low	OpenAI	1	4.8	$0.519	0/1	3.52s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.519 ردِعمل کا وقت (اوسط) 3.52s
#60	LongCat 2.0 medium	Meituan	1	4.8	$0.478	0/1	16.4s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.478 ردِعمل کا وقت (اوسط) 16.4s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	1	4.1	$0.387	0/1	2.32s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.387 ردِعمل کا وقت (اوسط) 2.32s
#67	Step 3.7 Flash low	Stepfun	1	3.4	$0.454	0/1	7.00s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.454 ردِعمل کا وقت (اوسط) 7.00s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	1	5.1	$0.482	0/1	3.27s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.482 ردِعمل کا وقت (اوسط) 3.27s
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	4.9	$0.317	0/1	25.3s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.317 ردِعمل کا وقت (اوسط) 25.3s

1 2 3 4

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

عمومی ذہانت: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز