عمومی ذہانت x غلط جواب درجہ بندی

دیکھیں کہ عمومی ذہانت میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

North Mini Code 1

ناکامی کی وجوہات

ہدایات پر عمل نہیں کیا78 غلط جواب59 API خرابی12 ٹائم آؤٹ4

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

59/59

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#171	North Mini Code none	Cohere	1	3.9	$0.000	0/1	34.8s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 34.8s
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	4.9	$0.317	0/1	25.3s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.317 ردِعمل کا وقت (اوسط) 25.3s
#137	North Mini Code medium	Cohere	1	5.1	$0.000	0/1	25.1s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 25.1s
#150	DeepSeek V4 Flash none	DeepSeek	1	4.2	$0.044	0/1	23.7s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.044 ردِعمل کا وقت (اوسط) 23.7s
#91	LongCat 2.0 low	Meituan	1	3.4	$0.391	0/1	22.5s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.391 ردِعمل کا وقت (اوسط) 22.5s
#48	Grok Build 0.1 medium	X AI	1	4.4	$1.097	0/1	18.4s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $1.097 ردِعمل کا وقت (اوسط) 18.4s
#194	GLM 4.7 Flash medium	Z.ai	1	3.6	$0.166	0/1	18.1s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.166 ردِعمل کا وقت (اوسط) 18.1s
#97	LongCat 2.0 high	Meituan	1	5.1	$0.469	0/1	17.0s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.469 ردِعمل کا وقت (اوسط) 17.0s
#60	LongCat 2.0 medium	Meituan	1	4.8	$0.478	0/1	16.4s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.478 ردِعمل کا وقت (اوسط) 16.4s
#179	Ring-2.6-1T none	Inclusionai	1	4.3	$0.026	0/1	15.6s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.026 ردِعمل کا وقت (اوسط) 15.6s
#129	Nemotron 3 Ultra none	NVIDIA	1	5.0	$0.095	0/1	13.5s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 13.5s
#22	Grok 4.5 medium	X AI	1	6.5	$1.928	0/1	12.8s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $1.928 ردِعمل کا وقت (اوسط) 12.8s
#202	Grok Build 0.1 none	X AI	1	4.3	$0.547	0/1	12.5s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.547 ردِعمل کا وقت (اوسط) 12.5s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	1	5.0	$0.067	0/1	12.0s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.067 ردِعمل کا وقت (اوسط) 12.0s
#206	gpt-oss-120b none	OpenAI	1	4.8	$0.010	0/1	10.8s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.010 ردِعمل کا وقت (اوسط) 10.8s

1 2 3 4

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

عمومی ذہانت: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز