غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ناکامیوں کی تعداد ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

Gemini 3.6 Flash 1

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#44	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $2.057 ردِعمل کا وقت (اوسط) 25.9s
#45	Claude Opus 4.8 low	Anthropic	4	7.8	$2.077	16/22	12.7s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $2.077 ردِعمل کا وقت (اوسط) 12.7s
#53	GLM 5 Turbo medium	Z.ai	4	7.6	$0.323	14/21	23.0s
کل ٹیسٹس 21 غلط ٹیسٹس 7 کل لاگت $0.323 ردِعمل کا وقت (اوسط) 23.0s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	4	7.5	$0.437	14/22	89.2s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.437 ردِعمل کا وقت (اوسط) 89.2s
#62	Qwen3.5-27B medium	Qwen	4	7.4	$1.627	13/22	111.9s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $1.627 ردِعمل کا وقت (اوسط) 111.9s
#70	Claude Opus 4.8 none	Anthropic	4	7.3	$1.166	13/22	4.91s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $1.166 ردِعمل کا وقت (اوسط) 4.91s
#78	GLM 5.1 medium	Z.ai	4	7.1	$0.535	13/22	46.8s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.535 ردِعمل کا وقت (اوسط) 46.8s
#84	Seed-2.0-Mini medium	Bytedance Seed	4	7.0	$0.101	11/22	92.5s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.101 ردِعمل کا وقت (اوسط) 92.5s
#94	Qwen3.6 35B A3B medium	Qwen	4	6.7	$0.746	13/22	58.1s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.746 ردِعمل کا وقت (اوسط) 58.1s
#120	Qwen3.5-Flash medium	Qwen	4	6.2	$0.139	12/22	84.8s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.139 ردِعمل کا وقت (اوسط) 84.8s
#136	Step 3.5 Flash medium	Stepfun	4	6.0	$0.108	11/21	174.2s
کل ٹیسٹس 21 غلط ٹیسٹس 10 کل لاگت $0.108 ردِعمل کا وقت (اوسط) 174.2s
#149	Gemini 3.1 Flash Lite high	Google	4	5.6	$2.044	10/18	62.0s
کل ٹیسٹس 18 غلط ٹیسٹس 8 کل لاگت $2.044 ردِعمل کا وقت (اوسط) 62.0s
#159	Hy3 preview low	Tencent	4	5.5	$0.015	10/21	24.6s
کل ٹیسٹس 21 غلط ٹیسٹس 11 کل لاگت $0.015 ردِعمل کا وقت (اوسط) 24.6s
#187	Grok 4.20 Multi Agent Beta medium	X AI	4	4.8	$5.599	8/18	9.69s
کل ٹیسٹس 18 غلط ٹیسٹس 10 کل لاگت $5.599 ردِعمل کا وقت (اوسط) 9.69s
#190	Hunter Alpha medium	OpenRouter	4	4.7	$0.000	8/18	10.3s
کل ٹیسٹس 18 غلط ٹیسٹس 10 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 10.3s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز