غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: اسکور ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

LFM2-24B-A2B 9

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#126	Gemini 3.1 Flash Lite minimal	Google	8	6.1	$0.047	10/22	1.86s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 1.86s
#124	Gemini 2.5 Flash none	Google	12	6.2	$0.017	9/22	6.20s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.017 ردِعمل کا وقت (اوسط) 6.20s
#125	Qwen3.5-35B-A3B medium	Qwen	2	6.2	$0.837	11/22	112.5s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.837 ردِعمل کا وقت (اوسط) 112.5s
#123	GPT-5.6 Luna low	OpenAI	10	6.2	$0.249	10/22	5.04s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.249 ردِعمل کا وقت (اوسط) 5.04s
#122	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.066 ردِعمل کا وقت (اوسط) 4.40s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 5.34s
#120	Qwen3.5-Flash medium	Qwen	4	6.2	$0.139	12/22	84.8s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.139 ردِعمل کا وقت (اوسط) 84.8s
#119	MiMo-V2-Flash medium	Xiaomi	5	6.3	$0.043	12/21	20.1s
کل ٹیسٹس 21 غلط ٹیسٹس 9 کل لاگت $0.043 ردِعمل کا وقت (اوسط) 20.1s
#118	Claude Sonnet 5 none	Anthropic	7	6.3	$0.548	8/22	6.04s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.548 ردِعمل کا وقت (اوسط) 6.04s
#117	LongCat 2.0 none	Meituan	14	6.3	$0.044	7/22	5.18s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.044 ردِعمل کا وقت (اوسط) 5.18s
#116	Gemma 4 31B medium	Google	2	6.3	$0.107	14/22	75.4s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.107 ردِعمل کا وقت (اوسط) 75.4s
#115	Mimo V2 PRO medium	Xiaomi	5	6.3	$0.333	12/21	22.2s
کل ٹیسٹس 21 غلط ٹیسٹس 9 کل لاگت $0.333 ردِعمل کا وقت (اوسط) 22.2s
#114	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.103 ردِعمل کا وقت (اوسط) 68.7s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	12	6.4	$0.073	10/22	9.85s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.073 ردِعمل کا وقت (اوسط) 9.85s
#112	Gemini 3.1 Flash Lite Preview none	Google	7	6.4	$0.052	12/22	1.58s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.052 ردِعمل کا وقت (اوسط) 1.58s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز