ڈومین مخصوص ماڈل درجہ بندی

دیکھیں کہ ڈومین مخصوص میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

اوسط ڈومین مخصوص اسکور

4.6

بہترین ماڈل

Claude Sonnet 4.6 2.9

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ467 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ43 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ18 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ9 ناکامی کی وجہ API خرابی کے ساتھ7 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ1

233/233

درجہ	ماڈل	کمپنی	ڈومین مخصوص اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#116	Qwen3.5-27B none	Qwen	3.0	6.5	$0.058	0/3	540ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.058 ردِعمل کا وقت (اوسط) 540ms
#223	MiMo-V2-Flash none	Xiaomi	5.3	4.0	$0.025	1/3	564ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 564ms
#214	Grok 4.20 Beta none	X AI	3.0	4.4	$0.087	0/3	611ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.087 ردِعمل کا وقت (اوسط) 611ms
#195	GPT-4o-mini none	OpenAI	3.0	5.0	$0.010	0/3	637ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.010 ردِعمل کا وقت (اوسط) 637ms
#209	Qwen3 Coder Next medium	Qwen	5.3	4.7	$0.032	1/3	638ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.032 ردِعمل کا وقت (اوسط) 638ms
#220	Grok 4.20 none	X AI	3.0	4.1	$0.057	0/3	687ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.057 ردِعمل کا وقت (اوسط) 687ms
#144	Nemotron 3 Ultra none	NVIDIA	5.3	6.1	$0.095	1/3	698ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 698ms
#178	GPT-5.6 Luna none	OpenAI	2.9	5.4	$0.071	0/3	737ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.071 ردِعمل کا وقت (اوسط) 737ms
#197	GLM 4.7 Flash none	Z.ai	7.7	4.9	$0.016	2/3	744ms
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 744ms
#188	MiMo-V2.5 none	Xiaomi	3.0	5.1	$0.025	0/3	756ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 756ms
#148	GPT-5.6 Terra none	OpenAI	5.3	6.0	$0.175	1/3	757ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.175 ردِعمل کا وقت (اوسط) 757ms
#137	Gemini 3.1 Flash Lite none	Google	2.9	6.1	$0.046	0/3	762ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.046 ردِعمل کا وقت (اوسط) 762ms
#81	Qwen3.7 Plus none	Qwen	3.0	7.2	$0.106	0/3	868ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 868ms
#205	Trinity Large Preview none	Arcee AI	5.3	4.8	$0.008	1/3	877ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 877ms
#172	MiMo-V2.5-Pro none	Xiaomi	5.3	5.5	$0.068	1/3	877ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.068 ردِعمل کا وقت (اوسط) 877ms

ڈومین مخصوص درجہ بندی

ماڈلز فلٹر کریں

ڈومین مخصوص اسکور کے لحاظ سے سرفہرست ماڈلز

ڈومین مخصوص اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز