مشترکہ x API خرابی درجہ بندی

دیکھیں کہ مشترکہ میں کن AI ماڈلز کو API خرابی پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

Gemini 3.5 Flash 2

ناکامی کی وجوہات

غیر معتبر ٹول کال91 غلط جواب68 کوئی جواب نہیں29 API خرابی26 ٹائم آؤٹ5 اضافی فارمیٹنگ1 ہدایات پر عمل نہیں کیا1

زمرے

کوڈنگ45 مشترکہ26 ٹول کالنگ17 اینٹی اے آئی چالیں14 ڈیٹا پارسنگ اور استخراج14 معلومات عامہ13 عمومی ذہانت12 پہیلی حل کرنا12 ڈومین مخصوص7 ہدایات کی پیروی1

24/24

درجہ	ماڈل	کمپنی	API خرابی کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#79	Gemini 3.5 Flash none	Google	2	3.0	$1.079	0/2	0ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $1.079 ردِعمل کا وقت (اوسط) 0ms
#90	Qwen3.6 35B A3B medium	Qwen	1	3.0	$0.746	0/2	817.6s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.746 ردِعمل کا وقت (اوسط) 817.6s
#110	Gemma 4 31B medium	Google	1	2.9	$0.163	0/2	433.1s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.163 ردِعمل کا وقت (اوسط) 433.1s
#115	Gemma 4 31B none	Google	1	3.8	$0.035	0/2	30.0s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.035 ردِعمل کا وقت (اوسط) 30.0s
#129	Nemotron 3 Ultra none	NVIDIA	1	3.0	$0.095	0/2	21.1s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 21.1s
#161	Qwen3.6 35B A3B none	Qwen	1	3.8	$0.061	0/2	39.5s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.061 ردِعمل کا وقت (اوسط) 39.5s
#179	Ring-2.6-1T none	Inclusionai	2	3.0	$0.026	0/2	0ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.026 ردِعمل کا وقت (اوسط) 0ms
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	1.5	$5.599	0/1	0ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $5.599 ردِعمل کا وقت (اوسط) 0ms
#182	KAT-Coder-Air V2.5 none	Kwaipilot	1	3.8	$0.067	0/2	73.0s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.067 ردِعمل کا وقت (اوسط) 73.0s
#202	Grok Build 0.1 none	X AI	1	1.5	$0.547	0/1	0ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.547 ردِعمل کا وقت (اوسط) 0ms
#206	gpt-oss-120b none	OpenAI	1	1.5	$0.010	0/1	0ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.010 ردِعمل کا وقت (اوسط) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	1.5	$0.000	0/1	0ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	1.5	$0.000	0/1	0ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 0ms
#209	Step 3.5 Flash none	Stepfun	1	1.5	$0.020	0/1	0ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.020 ردِعمل کا وقت (اوسط) 0ms
#210	LFM2-24B-A2B none	Liquid	1	1.5	$0.001	0/1	0ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.001 ردِعمل کا وقت (اوسط) 0ms

ماڈلز فلٹر کریں

API خرابی کی تعداد کے لحاظ سے سرفہرست ماڈلز

API خرابی کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

مشترکہ: API خرابی

ماڈلز فلٹر کریں

API خرابی کی تعداد کے لحاظ سے سرفہرست ماڈلز

API خرابی کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز