ڈومین مخصوص ماڈل درجہ بندی

دیکھیں کہ ڈومین مخصوص میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

اوسط ڈومین مخصوص اسکور

4.6

بہترین ماڈل

Claude Sonnet 4.6 2.9

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ467 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ43 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ18 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ9 ناکامی کی وجہ API خرابی کے ساتھ7 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ1

233/233

درجہ	ماڈل	کمپنی	ڈومین مخصوص اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#156	GPT-5.4 none	OpenAI	5.3	5.8	$0.397	1/3	1.07s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.397 ردِعمل کا وقت (اوسط) 1.07s
#139	Qwen3.6 Flash none	Qwen	5.3	6.1	$0.062	1/3	1.11s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.062 ردِعمل کا وقت (اوسط) 1.11s
#120	Qwen3.5 Plus 2026-02-15 none	Qwen	5.3	6.4	$0.073	1/3	1.17s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.073 ردِعمل کا وقت (اوسط) 1.17s
#20	Claude Opus 4.7 medium	Anthropic	7.7	8.7	$1.477	2/3	1.17s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $1.477 ردِعمل کا وقت (اوسط) 1.17s
#106	Claude Opus 4.7 none	Anthropic	7.7	6.6	$0.505	2/3	1.19s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.505 ردِعمل کا وقت (اوسط) 1.19s
#110	Qwen3.6 Max Preview none	Qwen	7.7	6.6	$0.231	2/3	1.22s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.231 ردِعمل کا وقت (اوسط) 1.22s
#98	GPT-5.5 none	OpenAI	2.9	6.9	$0.544	0/3	1.31s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.544 ردِعمل کا وقت (اوسط) 1.31s
#130	Seed-2.0-Lite none	Bytedance Seed	3.6	6.2	$0.066	0/3	1.33s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.066 ردِعمل کا وقت (اوسط) 1.33s
#94	GPT-5.6 Sol none	OpenAI	3.6	6.9	$0.524	0/3	1.43s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.524 ردِعمل کا وقت (اوسط) 1.43s
#184	Inkling none	Thinkingmachines	5.3	5.2	$0.147	1/3	1.45s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.147 ردِعمل کا وقت (اوسط) 1.45s
#155	Kimi K2.6 none	Moonshot AI	5.3	5.8	$0.158	1/3	1.48s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.158 ردِعمل کا وقت (اوسط) 1.48s
#118	Gemini 3.1 Flash Lite low	Google	5.3	6.5	$0.621	1/3	1.52s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.621 ردِعمل کا وقت (اوسط) 1.52s
#76	Claude Opus 4.8 none	Anthropic	5.3	7.3	$1.166	1/3	1.70s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $1.166 ردِعمل کا وقت (اوسط) 1.70s
#125	LongCat 2.0 none	Meituan	3.0	6.3	$0.044	0/3	1.72s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.044 ردِعمل کا وقت (اوسط) 1.72s
#165	Mimo V2 PRO none	Xiaomi	5.3	5.6	$0.045	1/3	1.78s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.045 ردِعمل کا وقت (اوسط) 1.78s

ڈومین مخصوص درجہ بندی

ماڈلز فلٹر کریں

ڈومین مخصوص اسکور کے لحاظ سے سرفہرست ماڈلز

ڈومین مخصوص اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز