غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

Nemotron 3 Nano Omni 30b A3b Reasoning 9

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#158	Qwen3.6 27B none	Qwen	11	5.5	$0.087	7/22	10.7s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.087 ردِعمل کا وقت (اوسط) 10.7s
#184	Ling-2.6-flash none	Inclusionai	9	4.9	$0.002	6/22	10.7s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.002 ردِعمل کا وقت (اوسط) 10.7s
#173	Mistral Small 4 medium	Mistral	12	5.1	$0.096	5/22	10.8s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.096 ردِعمل کا وقت (اوسط) 10.8s
#38	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $1.055 ردِعمل کا وقت (اوسط) 11.3s
#7	GPT-5.6 Sol medium	OpenAI	4	9.4	$1.316	18/22	11.4s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $1.316 ردِعمل کا وقت (اوسط) 11.4s
#27	Muse Spark 1.1 low	Meta	6	8.3	$0.647	13/22	11.5s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.647 ردِعمل کا وقت (اوسط) 11.5s
#86	DeepSeek V4 Pro none	DeepSeek	8	6.9	$0.096	10/22	11.6s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.096 ردِعمل کا وقت (اوسط) 11.6s
#8	GPT-5.6 Sol high	OpenAI	4	9.4	$1.234	18/22	11.7s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $1.234 ردِعمل کا وقت (اوسط) 11.7s
#152	Owl Alpha medium	Openrouter	10	5.6	$0.000	8/21	11.9s
کل ٹیسٹس 21 غلط ٹیسٹس 13 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 11.9s
#75	Qwen3.7 Plus none	Qwen	10	7.2	$0.106	11/22	12.1s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 12.1s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	13	4.8	$0.067	5/22	12.2s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.067 ردِعمل کا وقت (اوسط) 12.2s
#17	Claude Opus 4.8 medium	Anthropic	3	8.8	$1.931	18/22	12.5s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $1.931 ردِعمل کا وقت (اوسط) 12.5s
#26	Claude Sonnet 5 medium	Anthropic	4	8.3	$0.922	16/22	12.5s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $0.922 ردِعمل کا وقت (اوسط) 12.5s
#133	Qwen3.5-35B-A3B none	Qwen	12	6.1	$0.106	7/22	12.7s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 12.7s
#45	Claude Opus 4.8 low	Anthropic	4	7.8	$2.077	16/22	12.7s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $2.077 ردِعمل کا وقت (اوسط) 12.7s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز