مشترکہ ماڈل درجہ بندی

دیکھیں کہ مشترکہ میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

اوسط مشترکہ اسکور

5.5

بہترین ماڈل

Gemini 3.5 Flash 3.0

ناکامی کی وجوہات

ناکامی کی وجہ غیر معتبر ٹول کال کے ساتھ91 ناکامی کی وجہ غلط جواب کے ساتھ68 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ29 ناکامی کی وجہ API خرابی کے ساتھ26 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ5 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ1 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ1

210/210

درجہ	ماڈل	کمپنی	مشترکہ اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#193	Elephant Alpha none	Openrouter	1.5	4.3	$0.000	0/1	3.81s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 3.81s
#192	Laguna M.1 none	Poolside	1.5	4.4	$0.009	0/1	4.32s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.009 ردِعمل کا وقت (اوسط) 4.32s
#170	GLM 5 Turbo none	Z.ai	1.5	5.1	$0.047	0/1	4.89s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 4.89s
#141	GLM 5 none	Z.ai	1.5	5.7	$0.041	0/1	4.98s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 4.98s
#157	Mimo V2 Omni none	Xiaomi	1.5	5.5	$0.021	0/1	5.96s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 5.96s
#197	Grok 4.20 none	X AI	1.5	4.1	$0.057	0/1	6.04s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.057 ردِعمل کا وقت (اوسط) 6.04s
#136	GPT-5.4 Mini none	OpenAI	6.5	5.9	$0.095	1/2	6.22s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 6.22s
#106	Gemini 3.1 Flash Lite Preview none	Google	3.0	6.4	$0.052	0/2	6.23s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.052 ردِعمل کا وقت (اوسط) 6.23s
#174	GPT-4o-mini none	OpenAI	3.0	5.0	$0.010	0/2	6.32s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.010 ردِعمل کا وقت (اوسط) 6.32s
#191	Grok 4.20 Beta none	X AI	1.5	4.4	$0.087	0/1	6.48s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.087 ردِعمل کا وقت (اوسط) 6.48s
#145	GLM 5V Turbo none	Z.ai	1.5	5.6	$0.052	0/1	6.51s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.052 ردِعمل کا وقت (اوسط) 6.51s
#147	Mimo V2 PRO none	Xiaomi	1.5	5.6	$0.045	0/1	6.58s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.045 ردِعمل کا وقت (اوسط) 6.58s
#159	GPT-5.6 Luna none	OpenAI	3.2	5.4	$0.142	0/2	6.68s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.142 ردِعمل کا وقت (اوسط) 6.68s
#132	GPT-5.6 Terra none	OpenAI	2.9	6.0	$0.349	0/2	7.02s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.349 ردِعمل کا وقت (اوسط) 7.02s
#165	Mistral Small 4 none	Mistral	3.0	5.1	$0.022	0/2	7.44s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.022 ردِعمل کا وقت (اوسط) 7.44s

مشترکہ درجہ بندی

ماڈلز فلٹر کریں

مشترکہ اسکور کے لحاظ سے سرفہرست ماڈلز

مشترکہ اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز