غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ناکامیوں کی تعداد ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

Gemini 3.6 Flash 1

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#191	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
کل ٹیسٹس 19 غلط ٹیسٹس 10 کل لاگت $0.069 ردِعمل کا وقت (اوسط) 23.8s
#192	Laguna M.1 medium	Poolside	4	4.7	$0.033	9/19	14.7s
کل ٹیسٹس 19 غلط ٹیسٹس 10 کل لاگت $0.033 ردِعمل کا وقت (اوسط) 14.7s
#21	GPT-5.4 medium	OpenAI	5	8.5	$1.533	15/22	23.1s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $1.533 ردِعمل کا وقت (اوسط) 23.1s
#22	Qwen3.6 Max Preview medium	Qwen	5	8.4	$1.143	16/22	67.5s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $1.143 ردِعمل کا وقت (اوسط) 67.5s
#29	GPT-5 Mini medium	OpenAI	5	8.1	$0.237	12/22	27.6s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.237 ردِعمل کا وقت (اوسط) 27.6s
#33	Step 3.7 Flash medium	Stepfun	5	8.0	$0.515	14/22	26.4s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.515 ردِعمل کا وقت (اوسط) 26.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	5	7.9	$0.234	14/22	48.5s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.234 ردِعمل کا وقت (اوسط) 48.5s
#40	Qwen3.7 Plus medium	Qwen	5	7.9	$0.267	15/22	51.5s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $0.267 ردِعمل کا وقت (اوسط) 51.5s
#41	Qwen3.6 Plus medium	Qwen	5	7.8	$0.405	15/22	43.1s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $0.405 ردِعمل کا وقت (اوسط) 43.1s
#52	Grok Build 0.1 medium	X AI	5	7.6	$1.097	14/22	52.1s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $1.097 ردِعمل کا وقت (اوسط) 52.1s
#56	Kimi K2.7 Code medium	Moonshot AI	5	7.5	$0.740	12/22	84.2s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.740 ردِعمل کا وقت (اوسط) 84.2s
#67	Claude Sonnet 4.6 none	Anthropic	5	7.3	$0.661	12/22	8.12s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.661 ردِعمل کا وقت (اوسط) 8.12s
#76	Qwen3.5-122B-A10B medium	Qwen	5	7.1	$1.046	14/22	64.2s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $1.046 ردِعمل کا وقت (اوسط) 64.2s
#77	Grok 4.3 medium	X AI	5	7.1	$0.779	13/22	47.4s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.779 ردِعمل کا وقت (اوسط) 47.4s
#80	DeepSeek V3.2 medium	DeepSeek	5	7.0	$0.078	11/22	68.6s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.078 ردِعمل کا وقت (اوسط) 68.6s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز