ٹول کالنگ x ہدایات پر عمل نہیں کیا درجہ بندی

دیکھیں کہ ٹول کالنگ میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

GPT-5.4 Mini 1

ناکامی کی وجوہات

API خرابی17 غیر معتبر ٹول کال9 ہدایات پر عمل نہیں کیا8 غلط جواب3 کوئی جواب نہیں2

زمرے

پہیلی حل کرنا90 عمومی ذہانت78 اینٹی اے آئی چالیں33 ہدایات کی پیروی18 کوڈنگ16 ٹول کالنگ8 مشترکہ1 ڈومین مخصوص1

8/8

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#56	GPT-5.4 Mini medium	OpenAI	1	4.7	$0.756	0/1	9.62s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.756 ردِعمل کا وقت (اوسط) 9.62s
#75	Grok 4.20 medium	X AI	1	3.0	$0.777	0/1	13.7s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.777 ردِعمل کا وقت (اوسط) 13.7s
#123	Inkling low	Thinkingmachines	1	3.0	$0.187	0/1	2.57s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 2.57s
#131	Grok 4.20 Beta medium	X AI	1	3.0	$0.750	0/1	12.4s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.750 ردِعمل کا وقت (اوسط) 12.4s
#136	GPT-5.4 Mini none	OpenAI	1	3.0	$0.095	0/1	2.32s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 2.32s
#164	Inkling none	Thinkingmachines	1	3.0	$0.147	0/1	2.50s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.147 ردِعمل کا وقت (اوسط) 2.50s
#172	MiniMax M2.7 medium	Minimax	1	4.7	$0.163	0/1	12.0s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.163 ردِعمل کا وقت (اوسط) 12.0s
#177	Nemotron 3 Super none	NVIDIA	1	4.7	$0.008	0/1	16.0s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 16.0s

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ٹول کالنگ: ہدایات پر عمل نہیں کیا

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز