غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

1558

سب سے زیادہ متاثر ماڈل

Nemotron 3 Nano Omni 30b A3b Reasoning 9

زمرے

زمرہ ڈومین مخصوص میں412 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں252 زمرہ پہیلی حل کرنا میں201 زمرہ معلومات عامہ میں168 زمرہ مشترکہ میں68 زمرہ ہدایات کی پیروی میں61 زمرہ عمومی ذہانت میں59 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

209/209

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	9	3.2	$0.000	2/19	728ms
کل ٹیسٹس 19 غلط ٹیسٹس 17 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 728ms
#210	LFM2-24B-A2B none	Liquid	9	2.2	$0.001	2/16	782ms
کل ٹیسٹس 16 غلط ٹیسٹس 14 کل لاگت $0.001 ردِعمل کا وقت (اوسط) 782ms
#205	Laguna Xs.2 none	Poolside	8	3.8	$0.004	5/19	806ms
کل ٹیسٹس 19 غلط ٹیسٹس 14 کل لاگت $0.004 ردِعمل کا وقت (اوسط) 806ms
#189	Mercury 2 none	Inception	17	4.6	$0.030	4/22	829ms
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.030 ردِعمل کا وقت (اوسط) 829ms
#197	Grok 4.20 none	X AI	10	4.1	$0.057	6/18	1.11s
کل ٹیسٹس 18 غلط ٹیسٹس 12 کل لاگت $0.057 ردِعمل کا وقت (اوسط) 1.11s
#191	Grok 4.20 Beta none	X AI	10	4.4	$0.087	6/18	1.19s
کل ٹیسٹس 18 غلط ٹیسٹس 12 کل لاگت $0.087 ردِعمل کا وقت (اوسط) 1.19s
#165	Mistral Small 4 none	Mistral	16	5.1	$0.022	5/22	1.20s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.022 ردِعمل کا وقت (اوسط) 1.20s
#193	Elephant Alpha none	Openrouter	9	4.3	$0.000	5/21	1.22s
کل ٹیسٹس 21 غلط ٹیسٹس 16 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 1.22s
#195	Elephant Alpha medium	Openrouter	9	4.3	$0.000	6/21	1.27s
کل ٹیسٹس 21 غلط ٹیسٹس 15 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 1.27s
#201	Granite 4.1 8B none	IBM Granite	13	4.0	$0.007	2/22	1.45s
کل ٹیسٹس 22 غلط ٹیسٹس 20 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 1.45s
#159	GPT-5.6 Luna none	OpenAI	14	5.4	$0.142	6/22	1.50s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.142 ردِعمل کا وقت (اوسط) 1.50s
#136	GPT-5.4 Mini none	OpenAI	13	5.9	$0.095	6/22	1.53s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 1.53s
#160	Laguna XS 2.1 none	Poolside	14	5.3	$0.008	5/22	1.55s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 1.55s
#106	Gemini 3.1 Flash Lite Preview none	Google	7	6.4	$0.052	12/22	1.58s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.052 ردِعمل کا وقت (اوسط) 1.58s
#203	Grok 4.1 Fast none	X AI	13	3.8	$0.008	3/19	1.62s
کل ٹیسٹس 19 غلط ٹیسٹس 16 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 1.62s

1 2 14

→

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز