غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

1558

سب سے زیادہ متاثر ماڈل

زمرے

زمرہ ڈومین مخصوص میں412 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں252 زمرہ پہیلی حل کرنا میں201 زمرہ معلومات عامہ میں168 زمرہ مشترکہ میں68 زمرہ ہدایات کی پیروی میں61 زمرہ عمومی ذہانت میں59 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

209/209

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#145	GLM 5V Turbo none	Z.ai	11	5.6	$0.052	8/21	2.99s
کل ٹیسٹس 21 غلط ٹیسٹس 13 کل لاگت $0.052 ردِعمل کا وقت (اوسط) 2.99s
#147	Mimo V2 PRO none	Xiaomi	11	5.6	$0.045	7/21	2.27s
کل ٹیسٹس 21 غلط ٹیسٹس 14 کل لاگت $0.045 ردِعمل کا وقت (اوسط) 2.27s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	11	5.6	$0.048	8/22	8.42s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.048 ردِعمل کا وقت (اوسط) 8.42s
#152	Qwen3.6 27B none	Qwen	11	5.5	$0.087	7/22	10.7s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.087 ردِعمل کا وقت (اوسط) 10.7s
#154	MiMo-V2.5-Pro none	Xiaomi	11	5.5	$0.068	6/22	4.12s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.068 ردِعمل کا وقت (اوسط) 4.12s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	10	7.4	$0.387	11/22	19.5s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.387 ردِعمل کا وقت (اوسط) 19.5s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	10	7.2	$0.482	11/22	20.8s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.482 ردِعمل کا وقت (اوسط) 20.8s
#71	Qwen3.7 Plus none	Qwen	10	7.2	$0.106	11/22	12.1s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 12.1s
#83	GPT-5.6 Sol none	OpenAI	10	6.9	$0.524	11/22	2.16s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.524 ردِعمل کا وقت (اوسط) 2.16s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	10	6.7	$0.476	11/22	25.6s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.476 ردِعمل کا وقت (اوسط) 25.6s
#98	Qwen3.6 Max Preview none	Qwen	10	6.6	$0.231	12/22	7.82s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.231 ردِعمل کا وقت (اوسط) 7.82s
#117	GPT-5.6 Luna low	OpenAI	10	6.2	$0.249	10/22	5.04s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.249 ردِعمل کا وقت (اوسط) 5.04s
#146	Owl Alpha medium	Openrouter	10	5.6	$0.000	8/21	11.9s
کل ٹیسٹس 21 غلط ٹیسٹس 13 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 11.9s
#148	Owl Alpha none	Openrouter	10	5.6	$0.000	7/21	9.88s
کل ٹیسٹس 21 غلط ٹیسٹس 14 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 9.88s
#156	Gemma 4 26B A4B none	Google	10	5.5	$0.015	8/22	7.64s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.015 ردِعمل کا وقت (اوسط) 7.64s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز