مشترکہ ماڈل درجہ بندی

دیکھیں کہ مشترکہ میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: میٹرک ↑.

دکھائے گئے ماڈلز

اوسط مشترکہ اسکور

5.5

بہترین ماڈل

Gemini 3 PRO Preview 1.5

ناکامی کی وجوہات

ناکامی کی وجہ غیر معتبر ٹول کال کے ساتھ91 ناکامی کی وجہ غلط جواب کے ساتھ68 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ29 ناکامی کی وجہ API خرابی کے ساتھ26 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ5 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ1 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ1

210/210

درجہ	ماڈل	کمپنی	مشترکہ اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#133	Gemini 3 PRO Preview medium	Google	1.5	6.0	$0.385	0/1	10.4s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.385 ردِعمل کا وقت (اوسط) 10.4s
#141	GLM 5 none	Z.ai	1.5	5.7	$0.041	0/1	4.98s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 4.98s
#145	GLM 5V Turbo none	Z.ai	1.5	5.6	$0.052	0/1	6.51s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.052 ردِعمل کا وقت (اوسط) 6.51s
#146	Owl Alpha medium	Openrouter	1.5	5.6	$0.000	0/1	10.0s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 10.0s
#147	Mimo V2 PRO none	Xiaomi	1.5	5.6	$0.045	0/1	6.58s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.045 ردِعمل کا وقت (اوسط) 6.58s
#148	Owl Alpha none	Openrouter	1.5	5.6	$0.000	0/1	21.7s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 21.7s
#157	Mimo V2 Omni none	Xiaomi	1.5	5.5	$0.021	0/1	5.96s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 5.96s
#170	GLM 5 Turbo none	Z.ai	1.5	5.1	$0.047	0/1	4.89s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 4.89s
#181	Grok 4.20 Multi Agent Beta medium	X AI	1.5	4.8	$5.599	0/1	0ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $5.599 ردِعمل کا وقت (اوسط) 0ms
#183	Trinity Large Preview none	Arcee AI	1.5	4.8	$0.008	0/1	8.91s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 8.91s
#186	Laguna M.1 medium	Poolside	1.5	4.7	$0.033	0/1	53.1s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.033 ردِعمل کا وقت (اوسط) 53.1s
#188	Cobuddy medium	Baidu	1.5	4.7	$0.000	0/1	47.4s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 47.4s
#191	Grok 4.20 Beta none	X AI	1.5	4.4	$0.087	0/1	6.48s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.087 ردِعمل کا وقت (اوسط) 6.48s
#192	Laguna M.1 none	Poolside	1.5	4.4	$0.009	0/1	4.32s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.009 ردِعمل کا وقت (اوسط) 4.32s
#193	Elephant Alpha none	Openrouter	1.5	4.3	$0.000	0/1	3.81s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 3.81s

1 2 14

→

مشترکہ درجہ بندی

ماڈلز فلٹر کریں

مشترکہ اسکور کے لحاظ سے سرفہرست ماڈلز

مشترکہ اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز