غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

Nemotron 3 Nano Omni 30b A3b Reasoning 9

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#139	Gemini 3 PRO Preview medium	Google	3	6.0	$0.385	14/21	9.05s
کل ٹیسٹس 21 غلط ٹیسٹس 7 کل لاگت $0.385 ردِعمل کا وقت (اوسط) 9.05s
#172	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 9.12s
#182	GLM 4.7 Flash none	Z.ai	13	4.9	$0.016	6/22	9.15s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 9.15s
#101	GLM 5.2 none	Z.ai	8	6.6	$0.128	12/22	9.34s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.128 ردِعمل کا وقت (اوسط) 9.34s
#31	Gemini 3.5 Flash-Lite high	Google	6	8.1	$0.584	14/22	9.48s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.584 ردِعمل کا وقت (اوسط) 9.48s
#193	Qwen3 Coder Next medium	Qwen	13	4.7	$0.032	4/22	9.61s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.032 ردِعمل کا وقت (اوسط) 9.61s
#187	Grok 4.20 Multi Agent Beta medium	X AI	4	4.8	$5.599	8/18	9.69s
کل ٹیسٹس 18 غلط ٹیسٹس 10 کل لاگت $5.599 ردِعمل کا وقت (اوسط) 9.69s
#137	Grok 4.20 Beta medium	X AI	3	6.0	$0.750	14/18	9.75s
کل ٹیسٹس 18 غلط ٹیسٹس 4 کل لاگت $0.750 ردِعمل کا وقت (اوسط) 9.75s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	12	6.4	$0.073	10/22	9.85s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.073 ردِعمل کا وقت (اوسط) 9.85s
#154	Owl Alpha none	Openrouter	10	5.6	$0.000	7/21	9.88s
کل ٹیسٹس 21 غلط ٹیسٹس 14 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 9.88s
#83	Gemini 3.5 Flash none	Google	3	7.0	$1.079	15/22	9.93s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $1.079 ردِعمل کا وقت (اوسط) 9.93s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	7	5.4	$0.041	7/22	10.1s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 10.1s
#1	Gemini 3.6 Flash medium	Google	1	9.9	$0.831	21/22	10.1s
کل ٹیسٹس 22 غلط ٹیسٹس 1 کل لاگت $0.831 ردِعمل کا وقت (اوسط) 10.1s
#9	GPT-5.5 low	OpenAI	3	9.3	$1.253	19/22	10.1s
کل ٹیسٹس 22 غلط ٹیسٹس 3 کل لاگت $1.253 ردِعمل کا وقت (اوسط) 10.1s
#190	Hunter Alpha medium	OpenRouter	4	4.7	$0.000	8/18	10.3s
کل ٹیسٹس 18 غلط ٹیسٹس 10 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 10.3s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز