غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

Step 3.5 Flash 4

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#161	Kimi K2.5 none	Moonshot AI	15	5.5	$0.127	6/22	19.2s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.127 ردِعمل کا وقت (اوسط) 19.2s
#48	GPT-5.6 Luna high	OpenAI	7	7.7	$1.017	15/22	18.7s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $1.017 ردِعمل کا وقت (اوسط) 18.7s
#179	DeepSeek V3.2 none	DeepSeek	7	5.0	$0.054	6/22	18.3s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.054 ردِعمل کا وقت (اوسط) 18.3s
#20	Claude Fable 5 medium	Anthropic	2	8.6	$3.478	17/22	17.2s
کل ٹیسٹس 22 غلط ٹیسٹس 5 کل لاگت $3.478 ردِعمل کا وقت (اوسط) 17.2s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7	3.4	$0.000	4/19	17.1s
کل ٹیسٹس 19 غلط ٹیسٹس 15 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 17.1s
#16	GPT-5.3-Codex medium	OpenAI	4	8.9	$0.920	16/22	17.0s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $0.920 ردِعمل کا وقت (اوسط) 17.0s
#110	Gemini 3.1 Flash Lite Preview low	Google	7	6.5	$0.646	13/22	16.7s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.646 ردِعمل کا وقت (اوسط) 16.7s
#106	Hy3 preview medium	Tencent	3	6.5	$0.018	14/21	16.3s
کل ٹیسٹس 21 غلط ٹیسٹس 7 کل لاگت $0.018 ردِعمل کا وقت (اوسط) 16.3s
#111	Gemini 3.1 Flash Lite low	Google	9	6.5	$0.621	12/22	16.3s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.621 ردِعمل کا وقت (اوسط) 16.3s
#36	Inkling medium	Thinkingmachines	4	8.0	$0.391	15/22	16.2s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $0.391 ردِعمل کا وقت (اوسط) 16.2s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9	5.6	$0.077	7/22	15.9s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.077 ردِعمل کا وقت (اوسط) 15.9s
#23	Grok 4.5 low	X AI	6	8.4	$0.935	16/22	15.6s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $0.935 ردِعمل کا وقت (اوسط) 15.6s
#181	Qwen3.6 Plus Preview medium	Qwen	2	4.9	$0.000	9/19	15.2s
کل ٹیسٹس 19 غلط ٹیسٹس 10 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 15.2s
#4	Gemini 3.5 Flash high	Google	1	9.5	$1.976	20/22	15.1s
کل ٹیسٹس 22 غلط ٹیسٹس 2 کل لاگت $1.976 ردِعمل کا وقت (اوسط) 15.1s
#2	Gemini 3.6 Flash high	Google	1	9.7	$1.785	21/22	14.9s
کل ٹیسٹس 22 غلط ٹیسٹس 1 کل لاگت $1.785 ردِعمل کا وقت (اوسط) 14.9s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز