डोमेन-विशिष्ट मॉडल रैंकिंग

देखें कि डोमेन-विशिष्ट में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत डोमेन-विशिष्ट स्कोर

4.7

सर्वश्रेष्ठ मॉडल

GLM 5 Turbo 2.9

विफलता के कारण

विफलता कारण गलत उत्तर के साथ412 विफलता कारण समय समाप्त के साथ43 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ17 विफलता कारण कोई उत्तर नहीं के साथ8 विफलता कारण API त्रुटि के साथ7 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

210/210

रैंक	मॉडल	कंपनी	डोमेन-विशिष्ट स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#181	Grok 4.20 Multi Agent Beta medium	X AI	2.9	4.8	$5.599	0/3	24.7s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $5.599 प्रतिक्रिया समय (औसत) 24.7s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	2.9	4.8	$0.067	0/3	6.24s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.067 प्रतिक्रिया समय (औसत) 6.24s
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	2.9	3.4	$0.000	0/3	56.7s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 56.7s
#20	Grok 4.5 low	X AI	3.0	8.4	$0.935	0/3	72.6s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.935 प्रतिक्रिया समय (औसत) 72.6s
#43	Claude Opus 4.6 medium	Anthropic	3.0	7.7	$3.059	0/3	83.4s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $3.059 प्रतिक्रिया समय (औसत) 83.4s
#64	Gemini 3.1 Flash Lite Preview medium	Google	3.0	7.3	$0.115	0/3	4.21s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.115 प्रतिक्रिया समय (औसत) 4.21s
#71	Qwen3.7 Plus none	Qwen	3.0	7.2	$0.106	0/3	868ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 868ms
#80	Seed-2.0-Mini medium	Bytedance Seed	3.0	7.0	$0.101	0/3	0ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.101 प्रतिक्रिया समय (औसत) 0ms
#91	LongCat 2.0 low	Meituan	3.0	6.7	$0.391	0/3	86.1s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 86.1s
#103	Qwen3.5-27B none	Qwen	3.0	6.5	$0.090	0/3	540ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.090 प्रतिक्रिया समय (औसत) 540ms
#111	LongCat 2.0 none	Meituan	3.0	6.3	$0.044	0/3	1.72s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 1.72s
#134	Mimo V2 Omni medium	Xiaomi	3.0	5.9	$0.683	0/3	47.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 47.9s
#141	GLM 5 none	Z.ai	3.0	5.7	$0.041	0/3	2.24s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 2.24s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	3.0	5.6	$0.048	0/3	4.87s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 4.87s
#162	Ling-2.6-1T none	Inclusionai	3.0	5.3	$0.016	0/3	1.04s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 1.04s

डोमेन-विशिष्ट रैंकिंग

मॉडल फ़िल्टर करें

डोमेन-विशिष्ट स्कोर के अनुसार शीर्ष मॉडल

डोमेन-विशिष्ट स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल