ڈومین مخصوص ماڈل درجہ بندی

دیکھیں کہ ڈومین مخصوص میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

اوسط ڈومین مخصوص اسکور

4.6

بہترین ماڈل

Claude Sonnet 4.6 2.9

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ467 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ43 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ18 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ9 ناکامی کی وجہ API خرابی کے ساتھ7 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ1

233/233

درجہ	ماڈل	کمپنی	ڈومین مخصوص اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#136	Qwen3.7 Flash none	Qwen	5.3	6.1	$0.019	1/3	884ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.019 ردِعمل کا وقت (اوسط) 884ms
#99	Gemini 3.5 Flash minimal	Google	10.0	6.8	$0.300	3/3	899ms
کل ٹیسٹس 3 غلط ٹیسٹس 0 کل لاگت $0.300 ردِعمل کا وقت (اوسط) 899ms
#140	Qwen3.5-Flash none	Qwen	7.7	6.1	$0.073	2/3	905ms
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.073 ردِعمل کا وقت (اوسط) 905ms
#218	Elephant Alpha medium	Openrouter	3.0	4.3	$0.000	0/3	925ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 925ms
#201	GPT-5.4 Nano none	OpenAI	2.9	4.8	$0.041	0/3	926ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 926ms
#216	Elephant Alpha none	Openrouter	3.0	4.3	$0.000	0/3	927ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 927ms
#153	GPT-5.4 Mini none	OpenAI	3.5	5.9	$0.095	0/3	937ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 937ms
#119	Gemini 3.1 Flash Lite Preview none	Google	5.3	6.4	$0.052	1/3	942ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.052 ردِعمل کا وقت (اوسط) 942ms
#186	Qwen3 Coder Next none	Qwen	5.3	5.1	$0.025	1/3	962ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 962ms
#100	Gemini 3 Flash Preview none	Google	7.7	6.8	$0.085	2/3	963ms
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.085 ردِعمل کا وقت (اوسط) 963ms
#68	Qwen3.7 Max none	Qwen	7.7	7.4	$0.197	2/3	975ms
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.197 ردِعمل کا وقت (اوسط) 975ms
#159	Ling 3.0 Flash none	Inclusionai	3.0	5.7	$0.000	0/3	1000ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 1000ms
#134	Gemini 3.1 Flash Lite minimal	Google	2.9	6.1	$0.047	0/3	1.02s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 1.02s
#182	Ling-2.6-1T none	Inclusionai	3.0	5.3	$0.016	0/3	1.04s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 1.04s
#226	Grok 4.1 Fast none	X AI	5.9	3.8	$0.008	1/3	1.06s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 1.06s

ڈومین مخصوص درجہ بندی

ماڈلز فلٹر کریں

ڈومین مخصوص اسکور کے لحاظ سے سرفہرست ماڈلز

ڈومین مخصوص اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز