کوئی جواب نہیں ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں کوئی جواب نہیں سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ناکامیوں کی تعداد ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

Claude Opus 4.8 1

زمرے

زمرہ مشترکہ میں29 زمرہ کوڈنگ میں18 زمرہ معلومات عامہ میں13 زمرہ ڈومین مخصوص میں8 زمرہ ڈیٹا پارسنگ اور استخراج میں8 زمرہ اینٹی اے آئی چالیں میں4 زمرہ پہیلی حل کرنا میں3 زمرہ ٹول کالنگ میں2 زمرہ ہدایات کی پیروی میں2

67/67

درجہ	ماڈل	کمپنی	کوئی جواب نہیں کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#14	Claude Opus 4.8 medium	Anthropic	1	8.8	$1.931	18/22	12.5s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $1.931 ردِعمل کا وقت (اوسط) 12.5s
#21	GPT-5.2 medium	OpenAI	1	8.4	$0.951	14/22	22.6s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.951 ردِعمل کا وقت (اوسط) 22.6s
#26	GPT-5 Mini medium	OpenAI	1	8.1	$0.237	12/22	27.6s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.237 ردِعمل کا وقت (اوسط) 27.6s
#27	Muse Spark 1.1 high	Meta	1	8.1	$1.694	12/22	31.5s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $1.694 ردِعمل کا وقت (اوسط) 31.5s
#29	Step 3.7 Flash medium	Stepfun	1	8.0	$0.515	14/22	26.4s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.515 ردِعمل کا وقت (اوسط) 26.4s
#30	GPT-5.2 Chat none	OpenAI	1	8.0	$0.604	14/22	7.65s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.604 ردِعمل کا وقت (اوسط) 7.65s
#31	GLM 5.2 high	Z.ai	1	8.0	$0.970	14/22	62.7s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.970 ردِعمل کا وقت (اوسط) 62.7s
#32	Inkling medium	Thinkingmachines	1	8.0	$0.391	15/22	16.2s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $0.391 ردِعمل کا وقت (اوسط) 16.2s
#33	Kimi K3 max	Moonshot AI	1	8.0	$3.112	16/22	122.5s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $3.112 ردِعمل کا وقت (اوسط) 122.5s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	7.9	$0.234	14/22	48.5s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.234 ردِعمل کا وقت (اوسط) 48.5s
#41	Claude Opus 4.8 low	Anthropic	1	7.8	$2.077	16/22	12.7s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $2.077 ردِعمل کا وقت (اوسط) 12.7s
#42	GLM 5 medium	Z.ai	1	7.7	$0.307	15/21	33.5s
کل ٹیسٹس 21 غلط ٹیسٹس 6 کل لاگت $0.307 ردِعمل کا وقت (اوسط) 33.5s
#46	DeepSeek V4 Pro high	DeepSeek	1	7.7	$0.200	10/22	79.1s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.200 ردِعمل کا وقت (اوسط) 79.1s
#47	MiniMax M3 medium	Minimax	1	7.6	$0.286	12/22	75.0s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.286 ردِعمل کا وقت (اوسط) 75.0s
#49	GLM 5 Turbo medium	Z.ai	1	7.6	$0.323	14/21	23.0s
کل ٹیسٹس 21 غلط ٹیسٹس 7 کل لاگت $0.323 ردِعمل کا وقت (اوسط) 23.0s

1 2 3 4 5

→

کوئی جواب نہیں ناکامیاں

ماڈلز فلٹر کریں

کوئی جواب نہیں کی تعداد کے لحاظ سے سرفہرست ماڈلز

کوئی جواب نہیں کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز