ڈومین مخصوص ماڈل درجہ بندی

دیکھیں کہ ڈومین مخصوص میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

اوسط ڈومین مخصوص اسکور

4.6

بہترین ماڈل

Claude Sonnet 4.6 2.9

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ467 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ43 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ18 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ9 ناکامی کی وجہ API خرابی کے ساتھ7 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ1

233/233

درجہ	ماڈل	کمپنی	ڈومین مخصوص اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#47	Claude Sonnet 4.6 medium	Anthropic	2.9	7.8	$2.057	0/3	0ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $2.057 ردِعمل کا وقت (اوسط) 0ms
#50	GLM 5 medium	Z.ai	3.5	7.7	$0.307	0/3	0ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.307 ردِعمل کا وقت (اوسط) 0ms
#90	Seed-2.0-Mini medium	Bytedance Seed	3.0	7.0	$0.101	0/3	0ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.101 ردِعمل کا وقت (اوسط) 0ms
#233	LFM2-24B-A2B none	Liquid	5.9	2.2	$0.001	1/3	287ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.001 ردِعمل کا وقت (اوسط) 287ms
#224	Granite 4.1 8B none	IBM Granite	3.0	4.0	$0.007	0/3	357ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 357ms
#180	Laguna XS 2.1 none	Poolside	5.3	5.3	$0.008	1/3	364ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 364ms
#213	Laguna S 2.1 none	Poolside	3.0	4.5	$0.025	0/3	366ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 366ms
#185	Mistral Small 4 none	Mistral	5.3	5.1	$0.022	1/3	367ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.022 ردِعمل کا وقت (اوسط) 367ms
#228	Laguna Xs.2 none	Poolside	5.3	3.8	$0.004	1/3	371ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.004 ردِعمل کا وقت (اوسط) 371ms
#189	Qwen3.5-9B none	Qwen	3.0	5.1	$0.021	0/3	464ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 464ms
#160	Qwen3.5-122B-A10B none	Qwen	5.3	5.7	$0.247	1/3	465ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.247 ردِعمل کا وقت (اوسط) 465ms
#142	Qwen3.5-35B-A3B none	Qwen	7.7	6.1	$0.106	2/3	485ms
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 485ms
#231	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.6	3.2	$0.000	0/3	489ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 489ms
#132	Gemini 2.5 Flash none	Google	5.9	6.2	$0.017	1/3	495ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.017 ردِعمل کا وقت (اوسط) 495ms
#211	Mercury 2 none	Inception	5.3	4.6	$0.030	1/3	534ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.030 ردِعمل کا وقت (اوسط) 534ms

1 2 16

→

ڈومین مخصوص درجہ بندی

ماڈلز فلٹر کریں

ڈومین مخصوص اسکور کے لحاظ سے سرفہرست ماڈلز

ڈومین مخصوص اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز