غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

1642

سب سے زیادہ متاثر ماڈل

Gemini 3.6 Flash 1

زمرے

زمرہ ڈومین مخصوص میں433 زمرہ اینٹی اے آئی چالیں میں306 زمرہ کوڈنگ میں266 زمرہ پہیلی حل کرنا میں214 زمرہ معلومات عامہ میں176 زمرہ مشترکہ میں71 زمرہ عمومی ذہانت میں66 زمرہ ہدایات کی پیروی میں65 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں4

219/219

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#33	Step 3.7 Flash medium	Stepfun	5	8.0	$0.515	14/22	26.4s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.515 ردِعمل کا وقت (اوسط) 26.4s
#34	GPT-5.2 Chat none	OpenAI	6	8.0	$0.604	14/22	7.65s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.604 ردِعمل کا وقت (اوسط) 7.65s
#35	GLM 5.2 high	Z.ai	3	8.0	$0.796	14/22	62.7s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.796 ردِعمل کا وقت (اوسط) 62.7s
#38	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $1.055 ردِعمل کا وقت (اوسط) 11.3s
#39	Seed-2.0-Lite medium	Bytedance Seed	5	7.9	$0.234	14/22	48.5s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.234 ردِعمل کا وقت (اوسط) 48.5s
#43	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.676 ردِعمل کا وقت (اوسط) 7.11s
#44	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $2.057 ردِعمل کا وقت (اوسط) 25.9s
#52	Grok Build 0.1 medium	X AI	5	7.6	$1.097	14/22	52.1s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $1.097 ردِعمل کا وقت (اوسط) 52.1s
#54	GPT-5.6 Luna medium	OpenAI	8	7.6	$0.352	14/22	7.28s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.352 ردِعمل کا وقت (اوسط) 7.28s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	4	7.5	$0.437	14/22	89.2s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.437 ردِعمل کا وقت (اوسط) 89.2s
#76	Qwen3.5-122B-A10B medium	Qwen	5	7.1	$1.046	14/22	64.2s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $1.046 ردِعمل کا وقت (اوسط) 64.2s
#92	Gemini 3.5 Flash minimal	Google	5	6.8	$0.300	14/22	2.65s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.300 ردِعمل کا وقت (اوسط) 2.65s
#100	Gemma 4 26B A4B medium	Google	3	6.6	$0.089	14/22	103.8s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.089 ردِعمل کا وقت (اوسط) 103.8s
#116	Gemma 4 31B medium	Google	2	6.3	$0.107	14/22	75.4s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.107 ردِعمل کا وقت (اوسط) 75.4s
#27	Muse Spark 1.1 low	Meta	6	8.3	$0.647	13/22	11.5s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.647 ردِعمل کا وقت (اوسط) 11.5s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز