غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

Granite 4.1 8B 13

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	8	7.2	$0.317	13/22	46.4s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.317 ردِعمل کا وقت (اوسط) 46.4s
#77	Grok 4.3 medium	X AI	5	7.1	$0.779	13/22	47.4s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.779 ردِعمل کا وقت (اوسط) 47.4s
#78	GLM 5.1 medium	Z.ai	4	7.1	$0.535	13/22	46.8s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.535 ردِعمل کا وقت (اوسط) 46.8s
#93	Gemini 3 Flash Preview none	Google	8	6.8	$0.085	13/22	2.95s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.085 ردِعمل کا وقت (اوسط) 2.95s
#94	Qwen3.6 35B A3B medium	Qwen	4	6.7	$0.746	13/22	58.1s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.746 ردِعمل کا وقت (اوسط) 58.1s
#110	Gemini 3.1 Flash Lite Preview low	Google	7	6.5	$0.646	13/22	16.7s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.646 ردِعمل کا وقت (اوسط) 16.7s
#24	GPT-5.2 medium	OpenAI	3	8.4	$0.951	14/22	22.6s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.951 ردِعمل کا وقت (اوسط) 22.6s
#31	Gemini 3.5 Flash-Lite high	Google	6	8.1	$0.584	14/22	9.48s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.584 ردِعمل کا وقت (اوسط) 9.48s
#33	Step 3.7 Flash medium	Stepfun	5	8.0	$0.515	14/22	26.4s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.515 ردِعمل کا وقت (اوسط) 26.4s
#34	GPT-5.2 Chat none	OpenAI	6	8.0	$0.604	14/22	7.65s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.604 ردِعمل کا وقت (اوسط) 7.65s
#35	GLM 5.2 high	Z.ai	3	8.0	$0.817	14/22	62.7s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.817 ردِعمل کا وقت (اوسط) 62.7s
#38	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $1.055 ردِعمل کا وقت (اوسط) 11.3s
#39	Seed-2.0-Lite medium	Bytedance Seed	5	7.9	$0.234	14/22	48.5s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.234 ردِعمل کا وقت (اوسط) 48.5s
#43	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.676 ردِعمل کا وقت (اوسط) 7.11s
#44	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $2.057 ردِعمل کا وقت (اوسط) 25.9s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز