غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

Nemotron 3 Nano Omni 30b A3b Reasoning 9

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#65	Gemini 3 Flash Preview low	Google	6	7.4	$0.177	16/22	6.28s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $0.177 ردِعمل کا وقت (اوسط) 6.28s
#157	GLM 5.1 none	Z.ai	13	5.5	$0.164	7/22	6.70s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.164 ردِعمل کا وقت (اوسط) 6.70s
#204	Laguna Xs.2 medium	Poolside	6	4.1	$0.015	6/19	6.73s
کل ٹیسٹس 19 غلط ٹیسٹس 13 کل لاگت $0.015 ردِعمل کا وقت (اوسط) 6.73s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.571 ردِعمل کا وقت (اوسط) 6.88s
#43	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.676 ردِعمل کا وقت (اوسط) 7.11s
#54	GPT-5.6 Luna medium	OpenAI	8	7.6	$0.352	14/22	7.28s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.352 ردِعمل کا وقت (اوسط) 7.28s
#18	Claude Opus 4.7 medium	Anthropic	3	8.7	$1.477	18/22	7.61s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $1.477 ردِعمل کا وقت (اوسط) 7.61s
#162	Gemma 4 26B A4B none	Google	10	5.5	$0.015	8/22	7.64s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.015 ردِعمل کا وقت (اوسط) 7.64s
#34	GPT-5.2 Chat none	OpenAI	6	8.0	$0.604	14/22	7.65s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.604 ردِعمل کا وقت (اوسط) 7.65s
#103	Qwen3.6 Max Preview none	Qwen	10	6.6	$0.231	12/22	7.82s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.231 ردِعمل کا وقت (اوسط) 7.82s
#67	Claude Sonnet 4.6 none	Anthropic	5	7.3	$0.661	12/22	8.12s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.661 ردِعمل کا وقت (اوسط) 8.12s
#12	Gemini 3.5 Flash medium	Google	2	9.1	$0.642	19/22	8.20s
کل ٹیسٹس 22 غلط ٹیسٹس 3 کل لاگت $0.642 ردِعمل کا وقت (اوسط) 8.20s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	11	5.6	$0.048	8/22	8.42s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.048 ردِعمل کا وقت (اوسط) 8.42s
#168	Ling-2.6-1T none	Inclusionai	12	5.3	$0.016	4/22	8.58s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 8.58s
#5	GPT-5.6 Sol low	OpenAI	4	9.5	$0.971	18/22	8.79s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $0.971 ردِعمل کا وقت (اوسط) 8.79s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز