غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

1523

سب سے زیادہ متاثر ماڈل

زمرے

زمرہ ڈومین مخصوص میں404 زمرہ اینٹی اے آئی چالیں میں290 زمرہ کوڈنگ میں249 زمرہ پہیلی حل کرنا میں193 زمرہ معلومات عامہ میں165 زمرہ مشترکہ میں67 زمرہ ہدایات کی پیروی میں57 زمرہ عمومی ذہانت میں55 زمرہ ڈیٹا پارسنگ اور استخراج میں40 زمرہ ٹول کالنگ میں3

205/205

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#185	Mercury 2 none	Inception	17	4.6	$0.030	4/22	829ms
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.030 ردِعمل کا وقت (اوسط) 829ms
#161	Mistral Small 4 none	Mistral	16	5.1	$0.022	5/22	1.20s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.022 ردِعمل کا وقت (اوسط) 1.20s
#151	Kimi K2.5 none	Moonshot AI	15	5.5	$0.127	6/22	19.2s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.127 ردِعمل کا وقت (اوسط) 19.2s
#170	GPT-4o-mini none	OpenAI	15	5.0	$0.010	5/22	1.99s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.010 ردِعمل کا وقت (اوسط) 1.99s
#173	Nemotron 3 Super none	NVIDIA	15	4.9	$0.017	5/22	5.97s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.017 ردِعمل کا وقت (اوسط) 5.97s
#176	GPT-5.4 Nano none	OpenAI	15	4.8	$0.041	4/22	2.57s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 2.57s
#135	GPT-5.4 none	OpenAI	14	5.8	$0.397	7/22	2.07s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.397 ردِعمل کا وقت (اوسط) 2.07s
#155	GPT-5.6 Luna none	OpenAI	14	5.4	$0.142	6/22	1.50s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.142 ردِعمل کا وقت (اوسط) 1.50s
#156	Laguna XS 2.1 none	Poolside	14	5.3	$0.008	5/22	1.55s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 1.55s
#162	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 9.12s
#164	MiMo-V2.5 none	Xiaomi	14	5.1	$0.025	5/22	4.62s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 4.62s
#165	Qwen3.5-9B none	Qwen	14	5.1	$0.021	4/22	19.2s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 19.2s
#112	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.066 ردِعمل کا وقت (اوسط) 4.40s
#121	Qwen3.5-Flash none	Qwen	13	6.1	$0.073	8/22	25.3s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.073 ردِعمل کا وقت (اوسط) 25.3s
#132	GPT-5.4 Mini none	OpenAI	13	5.9	$0.095	6/22	1.53s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 1.53s

1 2 14

→

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز