غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

Step 3.5 Flash 4

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#149	Gemini 3.1 Flash Lite high	Google	4	5.6	$2.044	10/18	62.0s
کل ٹیسٹس 18 غلط ٹیسٹس 8 کل لاگت $2.044 ردِعمل کا وقت (اوسط) 62.0s
#25	Grok 4.5 medium	X AI	6	8.3	$1.928	16/22	61.7s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $1.928 ردِعمل کا وقت (اوسط) 61.7s
#94	Qwen3.6 35B A3B medium	Qwen	4	6.7	$0.746	13/22	58.1s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.746 ردِعمل کا وقت (اوسط) 58.1s
#141	Hy3 preview high	Tencent	3	5.9	$0.048	11/21	56.6s
کل ٹیسٹس 21 غلط ٹیسٹس 10 کل لاگت $0.048 ردِعمل کا وقت (اوسط) 56.6s
#185	Ring-2.6-1T none	Inclusionai	5	4.8	$0.026	9/22	55.1s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.026 ردِعمل کا وقت (اوسط) 55.1s
#134	GPT-5 Nano medium	OpenAI	9	6.1	$0.114	9/22	54.9s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.114 ردِعمل کا وقت (اوسط) 54.9s
#52	Grok Build 0.1 medium	X AI	5	7.6	$1.097	14/22	52.1s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $1.097 ردِعمل کا وقت (اوسط) 52.1s
#146	Nemotron 3 Super medium	NVIDIA	5	5.7	$0.055	8/22	52.0s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.055 ردِعمل کا وقت (اوسط) 52.0s
#40	Qwen3.7 Plus medium	Qwen	5	7.9	$0.267	15/22	51.5s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $0.267 ردِعمل کا وقت (اوسط) 51.5s
#49	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.041	13/22	49.7s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 49.7s
#39	Seed-2.0-Lite medium	Bytedance Seed	5	7.9	$0.234	14/22	48.5s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.234 ردِعمل کا وقت (اوسط) 48.5s
#108	Laguna XS 2.1 medium	Poolside	11	6.5	$0.068	9/22	47.9s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.068 ردِعمل کا وقت (اوسط) 47.9s
#77	Grok 4.3 medium	X AI	5	7.1	$0.779	13/22	47.4s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.779 ردِعمل کا وقت (اوسط) 47.4s
#78	GLM 5.1 medium	Z.ai	4	7.1	$0.535	13/22	46.8s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.535 ردِعمل کا وقت (اوسط) 46.8s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	8	7.2	$0.317	13/22	46.4s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.317 ردِعمل کا وقت (اوسط) 46.4s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز