غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: اسکور ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

Gemini 3.6 Flash 1

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#137	Grok 4.20 Beta medium	X AI	3	6.0	$0.750	14/18	9.75s
کل ٹیسٹس 18 غلط ٹیسٹس 4 کل لاگت $0.750 ردِعمل کا وقت (اوسط) 9.75s
#138	GPT-5.6 Terra none	OpenAI	11	6.0	$0.349	8/22	1.65s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.349 ردِعمل کا وقت (اوسط) 1.65s
#139	Gemini 3 PRO Preview medium	Google	3	6.0	$0.385	14/21	9.05s
کل ٹیسٹس 21 غلط ٹیسٹس 7 کل لاگت $0.385 ردِعمل کا وقت (اوسط) 9.05s
#140	Mimo V2 Omni medium	Xiaomi	5	5.9	$0.683	10/21	41.2s
کل ٹیسٹس 21 غلط ٹیسٹس 11 کل لاگت $0.683 ردِعمل کا وقت (اوسط) 41.2s
#141	Hy3 preview high	Tencent	3	5.9	$0.048	11/21	56.6s
کل ٹیسٹس 21 غلط ٹیسٹس 10 کل لاگت $0.048 ردِعمل کا وقت (اوسط) 56.6s
#142	GPT-5.4 Mini none	OpenAI	13	5.9	$0.095	6/22	1.53s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 1.53s
#143	North Mini Code medium	Cohere	9	5.9	$0.000	9/22	137.1s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 137.1s
#144	Kimi K2.6 none	Moonshot AI	11	5.8	$0.184	7/22	19.6s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.184 ردِعمل کا وقت (اوسط) 19.6s
#145	GPT-5.4 none	OpenAI	14	5.8	$0.397	7/22	2.07s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.397 ردِعمل کا وقت (اوسط) 2.07s
#146	Nemotron 3 Super medium	NVIDIA	5	5.7	$0.055	8/22	52.0s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.055 ردِعمل کا وقت (اوسط) 52.0s
#147	GLM 5 none	Z.ai	12	5.7	$0.041	9/21	4.03s
کل ٹیسٹس 21 غلط ٹیسٹس 12 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 4.03s
#148	Qwen3.5-122B-A10B none	Qwen	13	5.7	$0.247	6/22	12.9s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.247 ردِعمل کا وقت (اوسط) 12.9s
#149	Gemini 3.1 Flash Lite high	Google	4	5.6	$2.044	10/18	62.0s
کل ٹیسٹس 18 غلط ٹیسٹس 8 کل لاگت $2.044 ردِعمل کا وقت (اوسط) 62.0s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9	5.6	$0.077	7/22	15.9s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.077 ردِعمل کا وقت (اوسط) 15.9s
#151	GLM 5V Turbo none	Z.ai	11	5.6	$0.052	8/21	2.99s
کل ٹیسٹس 21 غلط ٹیسٹس 13 کل لاگت $0.052 ردِعمل کا وقت (اوسط) 2.99s

←

1 9 10 11 15

→

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز