غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ناکامیوں کی تعداد ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

Gemini 3.6 Flash 1

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#64	LongCat 2.0 medium	Meituan	7	7.4	$0.478	12/22	136.6s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.478 ردِعمل کا وقت (اوسط) 136.6s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7	7.3	$0.115	13/22	4.61s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.115 ردِعمل کا وقت (اوسط) 4.61s
#69	Gemini 3.1 Flash Lite medium	Google	7	7.3	$0.117	13/22	4.27s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.117 ردِعمل کا وقت (اوسط) 4.27s
#98	GLM 5V Turbo medium	Z.ai	7	6.7	$0.457	11/21	23.1s
کل ٹیسٹس 21 غلط ٹیسٹس 10 کل لاگت $0.457 ردِعمل کا وقت (اوسط) 23.1s
#110	Gemini 3.1 Flash Lite Preview low	Google	7	6.5	$0.646	13/22	16.7s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.646 ردِعمل کا وقت (اوسط) 16.7s
#112	Gemini 3.1 Flash Lite Preview none	Google	7	6.4	$0.052	12/22	1.58s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.052 ردِعمل کا وقت (اوسط) 1.58s
#118	Claude Sonnet 5 none	Anthropic	7	6.3	$0.548	8/22	6.04s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.548 ردِعمل کا وقت (اوسط) 6.04s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	7	5.4	$0.041	7/22	10.1s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 10.1s
#179	DeepSeek V3.2 none	DeepSeek	7	5.0	$0.054	6/22	18.3s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.054 ردِعمل کا وقت (اوسط) 18.3s
#196	MiniMax M2.5 medium	Minimax	7	4.6	$0.340	5/22	68.3s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.340 ردِعمل کا وقت (اوسط) 68.3s
#208	Grok Build 0.1 none	X AI	7	4.0	$0.547	7/19	28.7s
کل ٹیسٹس 19 غلط ٹیسٹس 12 کل لاگت $0.547 ردِعمل کا وقت (اوسط) 28.7s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7	3.4	$0.000	4/19	17.1s
کل ٹیسٹس 19 غلط ٹیسٹس 15 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 17.1s
#43	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.676 ردِعمل کا وقت (اوسط) 7.11s
#54	GPT-5.6 Luna medium	OpenAI	8	7.6	$0.352	14/22	7.28s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.352 ردِعمل کا وقت (اوسط) 7.28s
#57	GPT-5.4 Nano medium	OpenAI	8	7.5	$0.138	12/22	13.2s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.138 ردِعمل کا وقت (اوسط) 13.2s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز