غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

Nemotron 3 Nano Omni 30b A3b Reasoning 9

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#127	gpt-oss-120b medium	OpenAI	9	6.1	$0.019	9/22	21.9s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.019 ردِعمل کا وقت (اوسط) 21.9s
#115	Mimo V2 PRO medium	Xiaomi	5	6.3	$0.333	12/21	22.2s
کل ٹیسٹس 21 غلط ٹیسٹس 9 کل لاگت $0.333 ردِعمل کا وقت (اوسط) 22.2s
#24	GPT-5.2 medium	OpenAI	3	8.4	$0.951	14/22	22.6s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.951 ردِعمل کا وقت (اوسط) 22.6s
#53	GLM 5 Turbo medium	Z.ai	4	7.6	$0.323	14/21	23.0s
کل ٹیسٹس 21 غلط ٹیسٹس 7 کل لاگت $0.323 ردِعمل کا وقت (اوسط) 23.0s
#98	GLM 5V Turbo medium	Z.ai	7	6.7	$0.457	11/21	23.1s
کل ٹیسٹس 21 غلط ٹیسٹس 10 کل لاگت $0.457 ردِعمل کا وقت (اوسط) 23.1s
#21	GPT-5.4 medium	OpenAI	5	8.5	$1.533	15/22	23.1s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $1.533 ردِعمل کا وقت (اوسط) 23.1s
#42	GLM 5.2 medium	Z.ai	3	7.8	$0.187	15/21	23.3s
کل ٹیسٹس 21 غلط ٹیسٹس 6 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 23.3s
#191	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
کل ٹیسٹس 19 غلط ٹیسٹس 10 کل لاگت $0.069 ردِعمل کا وقت (اوسط) 23.8s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9	6.9	$0.467	11/22	24.0s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.467 ردِعمل کا وقت (اوسط) 24.0s
#159	Hy3 preview low	Tencent	4	5.5	$0.015	10/21	24.6s
کل ٹیسٹس 21 غلط ٹیسٹس 11 کل لاگت $0.015 ردِعمل کا وقت (اوسط) 24.6s
#19	Muse Spark 1.1 medium	Meta	4	8.6	$1.357	15/22	25.0s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $1.357 ردِعمل کا وقت (اوسط) 25.0s
#131	Qwen3.5-Flash none	Qwen	13	6.1	$0.073	8/22	25.3s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.073 ردِعمل کا وقت (اوسط) 25.3s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	10	6.7	$0.476	11/22	25.6s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.476 ردِعمل کا وقت (اوسط) 25.6s
#44	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $2.057 ردِعمل کا وقت (اوسط) 25.9s
#60	GPT-5.4 Mini medium	OpenAI	6	7.5	$0.756	12/22	25.9s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.756 ردِعمل کا وقت (اوسط) 25.9s

←

1 9 10 11 15

→

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز