غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: اسکور ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

Gemini 3.6 Flash 1

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#107	MiMo-V2.5 medium	Xiaomi	5	6.5	$0.082	12/22	32.2s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.082 ردِعمل کا وقت (اوسط) 32.2s
#108	Laguna XS 2.1 medium	Poolside	11	6.5	$0.068	9/22	47.9s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.068 ردِعمل کا وقت (اوسط) 47.9s
#109	Qwen3.5-27B none	Qwen	12	6.5	$0.090	8/22	4.76s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.090 ردِعمل کا وقت (اوسط) 4.76s
#110	Gemini 3.1 Flash Lite Preview low	Google	7	6.5	$0.646	13/22	16.7s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.646 ردِعمل کا وقت (اوسط) 16.7s
#111	Gemini 3.1 Flash Lite low	Google	9	6.5	$0.621	12/22	16.3s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.621 ردِعمل کا وقت (اوسط) 16.3s
#112	Gemini 3.1 Flash Lite Preview none	Google	7	6.4	$0.052	12/22	1.58s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.052 ردِعمل کا وقت (اوسط) 1.58s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	12	6.4	$0.073	10/22	9.85s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.073 ردِعمل کا وقت (اوسط) 9.85s
#114	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.103 ردِعمل کا وقت (اوسط) 68.7s
#115	Mimo V2 PRO medium	Xiaomi	5	6.3	$0.333	12/21	22.2s
کل ٹیسٹس 21 غلط ٹیسٹس 9 کل لاگت $0.333 ردِعمل کا وقت (اوسط) 22.2s
#116	Gemma 4 31B medium	Google	2	6.3	$0.107	14/22	75.4s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.107 ردِعمل کا وقت (اوسط) 75.4s
#117	LongCat 2.0 none	Meituan	14	6.3	$0.044	7/22	5.18s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.044 ردِعمل کا وقت (اوسط) 5.18s
#118	Claude Sonnet 5 none	Anthropic	7	6.3	$0.548	8/22	6.04s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.548 ردِعمل کا وقت (اوسط) 6.04s
#119	MiMo-V2-Flash medium	Xiaomi	5	6.3	$0.043	12/21	20.1s
کل ٹیسٹس 21 غلط ٹیسٹس 9 کل لاگت $0.043 ردِعمل کا وقت (اوسط) 20.1s
#120	Qwen3.5-Flash medium	Qwen	4	6.2	$0.139	12/22	84.8s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.139 ردِعمل کا وقت (اوسط) 84.8s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 5.34s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز