غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

Nemotron 3 Nano Omni 30b A3b Reasoning 9

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#148	Qwen3.5-122B-A10B none	Qwen	13	5.7	$0.247	6/22	12.9s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.247 ردِعمل کا وقت (اوسط) 12.9s
#205	Hy3 preview none	Tencent	8	4.0	$0.003	4/21	12.9s
کل ٹیسٹس 21 غلط ٹیسٹس 17 کل لاگت $0.003 ردِعمل کا وقت (اوسط) 12.9s
#57	GPT-5.4 Nano medium	OpenAI	8	7.5	$0.138	12/22	13.2s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.138 ردِعمل کا وقت (اوسط) 13.2s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	12	6.1	$0.122	8/22	13.6s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.122 ردِعمل کا وقت (اوسط) 13.6s
#192	Laguna M.1 medium	Poolside	4	4.7	$0.033	9/19	14.7s
کل ٹیسٹس 19 غلط ٹیسٹس 10 کل لاگت $0.033 ردِعمل کا وقت (اوسط) 14.7s
#2	Gemini 3.6 Flash high	Google	1	9.7	$1.785	21/22	14.9s
کل ٹیسٹس 22 غلط ٹیسٹس 1 کل لاگت $1.785 ردِعمل کا وقت (اوسط) 14.9s
#4	Gemini 3.5 Flash high	Google	1	9.5	$1.976	20/22	15.1s
کل ٹیسٹس 22 غلط ٹیسٹس 2 کل لاگت $1.976 ردِعمل کا وقت (اوسط) 15.1s
#181	Qwen3.6 Plus Preview medium	Qwen	2	4.9	$0.000	9/19	15.2s
کل ٹیسٹس 19 غلط ٹیسٹس 10 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 15.2s
#23	Grok 4.5 low	X AI	6	8.4	$0.935	16/22	15.6s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $0.935 ردِعمل کا وقت (اوسط) 15.6s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9	5.6	$0.077	7/22	15.9s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.077 ردِعمل کا وقت (اوسط) 15.9s
#36	Inkling medium	Thinkingmachines	4	8.0	$0.391	15/22	16.2s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $0.391 ردِعمل کا وقت (اوسط) 16.2s
#111	Gemini 3.1 Flash Lite low	Google	9	6.5	$0.621	12/22	16.3s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.621 ردِعمل کا وقت (اوسط) 16.3s
#106	Hy3 preview medium	Tencent	3	6.5	$0.018	14/21	16.3s
کل ٹیسٹس 21 غلط ٹیسٹس 7 کل لاگت $0.018 ردِعمل کا وقت (اوسط) 16.3s
#110	Gemini 3.1 Flash Lite Preview low	Google	7	6.5	$0.646	13/22	16.7s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.646 ردِعمل کا وقت (اوسط) 16.7s
#16	GPT-5.3-Codex medium	OpenAI	4	8.9	$0.920	16/22	17.0s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $0.920 ردِعمل کا وقت (اوسط) 17.0s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز