غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ناکامیوں کی تعداد ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

Gemini 3.6 Flash 1

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#95	Gemini 3.5 Flash-Lite low	Google	9	6.7	$0.145	12/22	2.25s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.145 ردِعمل کا وقت (اوسط) 2.25s
#104	Gemini 3.5 Flash-Lite medium	Google	9	6.5	$0.369	12/22	6.01s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.369 ردِعمل کا وقت (اوسط) 6.01s
#111	Gemini 3.1 Flash Lite low	Google	9	6.5	$0.621	12/22	16.3s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.621 ردِعمل کا وقت (اوسط) 16.3s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 5.34s
#127	gpt-oss-120b medium	OpenAI	9	6.1	$0.019	9/22	21.9s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.019 ردِعمل کا وقت (اوسط) 21.9s
#134	GPT-5 Nano medium	OpenAI	9	6.1	$0.114	9/22	54.9s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.114 ردِعمل کا وقت (اوسط) 54.9s
#143	North Mini Code medium	Cohere	9	5.9	$0.000	9/22	137.1s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 137.1s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9	5.6	$0.077	7/22	15.9s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.077 ردِعمل کا وقت (اوسط) 15.9s
#184	Ling-2.6-flash none	Inclusionai	9	4.9	$0.002	6/22	10.7s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.002 ردِعمل کا وقت (اوسط) 10.7s
#194	Cobuddy medium	Baidu	9	4.7	$0.000	7/21	39.9s
کل ٹیسٹس 21 غلط ٹیسٹس 14 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 39.9s
#199	Elephant Alpha none	Openrouter	9	4.3	$0.000	5/21	1.22s
کل ٹیسٹس 21 غلط ٹیسٹس 16 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 1.22s
#200	GLM 4.7 Flash medium	Z.ai	9	4.3	$0.166	4/22	142.6s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.166 ردِعمل کا وقت (اوسط) 142.6s
#201	Elephant Alpha medium	Openrouter	9	4.3	$0.000	6/21	1.27s
کل ٹیسٹس 21 غلط ٹیسٹس 15 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 1.27s
#202	Hunter Alpha none	OpenRouter	9	4.2	$0.000	6/18	4.70s
کل ٹیسٹس 18 غلط ٹیسٹس 12 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 4.70s
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	9	3.2	$0.000	2/19	728ms
کل ٹیسٹس 19 غلط ٹیسٹس 17 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 728ms

←

1 9 10 11 15

→

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز