غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: اسکور ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

Gemini 3.6 Flash 1

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#62	Qwen3.5-27B medium	Qwen	4	7.4	$1.627	13/22	111.9s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $1.627 ردِعمل کا وقت (اوسط) 111.9s
#63	Qwen3.7 Max none	Qwen	7	7.4	$0.197	15/22	4.52s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $0.197 ردِعمل کا وقت (اوسط) 4.52s
#64	LongCat 2.0 medium	Meituan	7	7.4	$0.478	12/22	136.6s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.478 ردِعمل کا وقت (اوسط) 136.6s
#65	Gemini 3 Flash Preview low	Google	6	7.4	$0.177	16/22	6.28s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $0.177 ردِعمل کا وقت (اوسط) 6.28s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10	7.4	$0.387	11/22	19.5s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.387 ردِعمل کا وقت (اوسط) 19.5s
#67	Claude Sonnet 4.6 none	Anthropic	5	7.3	$0.661	12/22	8.12s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.661 ردِعمل کا وقت (اوسط) 8.12s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7	7.3	$0.115	13/22	4.61s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.115 ردِعمل کا وقت (اوسط) 4.61s
#69	Gemini 3.1 Flash Lite medium	Google	7	7.3	$0.117	13/22	4.27s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.117 ردِعمل کا وقت (اوسط) 4.27s
#70	Claude Opus 4.8 none	Anthropic	4	7.3	$1.166	13/22	4.91s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $1.166 ردِعمل کا وقت (اوسط) 4.91s
#71	Step 3.7 Flash low	Stepfun	8	7.3	$0.454	12/22	20.7s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.454 ردِعمل کا وقت (اوسط) 20.7s
#72	Kimi K2.6 medium	Moonshot AI	3	7.2	$1.036	12/22	110.0s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $1.036 ردِعمل کا وقت (اوسط) 110.0s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	10	7.2	$0.482	11/22	20.8s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.482 ردِعمل کا وقت (اوسط) 20.8s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	8	7.2	$0.317	13/22	46.4s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.317 ردِعمل کا وقت (اوسط) 46.4s
#75	Qwen3.7 Plus none	Qwen	10	7.2	$0.106	11/22	12.1s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 12.1s
#76	Qwen3.5-122B-A10B medium	Qwen	5	7.1	$1.046	14/22	64.2s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $1.046 ردِعمل کا وقت (اوسط) 64.2s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز