डोमेन-विशिष्ट मॉडल रैंकिंग

देखें कि डोमेन-विशिष्ट में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

औसत डोमेन-विशिष्ट स्कोर

4.7

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ421 विफलता कारण समय समाप्त के साथ43 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ17 विफलता कारण कोई उत्तर नहीं के साथ8 विफलता कारण API त्रुटि के साथ7 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	डोमेन-विशिष्ट स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#89	Qwen3.6 Flash medium	Qwen	3.5	6.9	$0.738	0/3	14.6s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.738 प्रतिक्रिया समय (औसत) 14.6s
#114	Ring-2.6-1T medium	Inclusionai	3.5	6.3	$0.103	0/3	64.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.103 प्रतिक्रिया समय (औसत) 64.9s
#142	GPT-5.4 Mini none	OpenAI	3.5	5.9	$0.095	0/3	937ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 937ms
#167	Qwen3.6 35B A3B none	Qwen	3.5	5.3	$0.061	0/3	7.45s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.061 प्रतिक्रिया समय (औसत) 7.45s
#200	GLM 4.7 Flash medium	Z.ai	3.5	4.3	$0.166	0/3	174.6s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.166 प्रतिक्रिया समय (औसत) 174.6s
#215	Step 3.5 Flash none	Stepfun	3.3	2.3	$0.020	1/1	34.5s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 34.5s
#23	Grok 4.5 low	X AI	3.0	8.4	$0.935	0/3	72.6s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.935 प्रतिक्रिया समय (औसत) 72.6s
#47	Claude Opus 4.6 medium	Anthropic	3.0	7.7	$3.059	0/3	83.4s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $3.059 प्रतिक्रिया समय (औसत) 83.4s
#68	Gemini 3.1 Flash Lite Preview medium	Google	3.0	7.3	$0.115	0/3	4.21s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.115 प्रतिक्रिया समय (औसत) 4.21s
#75	Qwen3.7 Plus none	Qwen	3.0	7.2	$0.106	0/3	868ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 868ms
#84	Seed-2.0-Mini medium	Bytedance Seed	3.0	7.0	$0.101	0/3	0ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.101 प्रतिक्रिया समय (औसत) 0ms
#96	LongCat 2.0 low	Meituan	3.0	6.7	$0.391	0/3	86.1s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 86.1s
#109	Qwen3.5-27B none	Qwen	3.0	6.5	$0.090	0/3	540ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.090 प्रतिक्रिया समय (औसत) 540ms
#117	LongCat 2.0 none	Meituan	3.0	6.3	$0.044	0/3	1.72s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 1.72s
#140	Mimo V2 Omni medium	Xiaomi	3.0	5.9	$0.683	0/3	47.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 47.9s

डोमेन-विशिष्ट रैंकिंग

मॉडल फ़िल्टर करें

डोमेन-विशिष्ट स्कोर के अनुसार शीर्ष मॉडल

डोमेन-विशिष्ट स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल