عمومی ذہانت x غلط جواب درجہ بندی

دیکھیں کہ عمومی ذہانت میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

Granite 4.1 8B 1

ناکامی کی وجوہات

ہدایات پر عمل نہیں کیا78 غلط جواب59 API خرابی12 ٹائم آؤٹ4

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

59/59

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#201	Granite 4.1 8B none	IBM Granite	1	4.0	$0.007	0/1	499ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 499ms
#160	Laguna XS 2.1 none	Poolside	1	5.0	$0.008	0/1	529ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 529ms
#118	Gemini 2.5 Flash none	Google	1	5.0	$0.017	0/1	615ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.017 ردِعمل کا وقت (اوسط) 615ms
#197	Grok 4.20 none	X AI	1	4.8	$0.057	0/1	659ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.057 ردِعمل کا وقت (اوسط) 659ms
#165	Mistral Small 4 none	Mistral	1	4.0	$0.022	0/1	729ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.022 ردِعمل کا وقت (اوسط) 729ms
#151	GLM 5.1 none	Z.ai	1	5.0	$0.164	0/1	790ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.164 ردِعمل کا وقت (اوسط) 790ms
#164	Inkling none	Thinkingmachines	1	5.0	$0.147	0/1	859ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.147 ردِعمل کا وقت (اوسط) 859ms
#174	GPT-4o-mini none	OpenAI	1	4.0	$0.010	0/1	909ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.010 ردِعمل کا وقت (اوسط) 909ms
#177	Nemotron 3 Super none	NVIDIA	1	4.6	$0.008	0/1	950ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 950ms
#122	Gemini 3.1 Flash Lite none	Google	1	4.0	$0.046	0/1	992ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.046 ردِعمل کا وقت (اوسط) 992ms
#159	GPT-5.6 Luna none	OpenAI	1	5.0	$0.142	0/1	1.00s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.142 ردِعمل کا وقت (اوسط) 1.00s
#132	GPT-5.6 Terra none	OpenAI	1	5.0	$0.349	0/1	1.03s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.349 ردِعمل کا وقت (اوسط) 1.03s
#105	Gemini 3.1 Flash Lite low	Google	1	4.0	$0.621	0/1	1.37s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.621 ردِعمل کا وقت (اوسط) 1.37s
#178	Ling-2.6-flash none	Inclusionai	1	4.0	$0.002	0/1	1.45s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.002 ردِعمل کا وقت (اوسط) 1.45s
#83	GPT-5.6 Sol none	OpenAI	1	6.5	$0.524	0/1	1.52s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.524 ردِعمل کا وقت (اوسط) 1.52s

1 2 3 4

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

عمومی ذہانت: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز