डोमेन-विशिष्ट मॉडल रैंकिंग

देखें कि डोमेन-विशिष्ट में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत डोमेन-विशिष्ट स्कोर

4.7

सर्वश्रेष्ठ मॉडल

Kimi K3 5.9

विफलता के कारण

विफलता कारण गलत उत्तर के साथ421 विफलता कारण समय समाप्त के साथ43 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ17 विफलता कारण कोई उत्तर नहीं के साथ8 विफलता कारण API त्रुटि के साथ7 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	डोमेन-विशिष्ट स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#107	MiMo-V2.5 medium	Xiaomi	5.3	6.5	$0.082	1/3	34.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.082 प्रतिक्रिया समय (औसत) 34.5s
#10	Gemini 3.1 Pro Preview medium	Google	7.7	9.2	$1.361	2/3	32.7s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.361 प्रतिक्रिया समय (औसत) 32.7s
#78	GLM 5.1 medium	Z.ai	5.3	7.1	$0.535	1/3	29.8s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.535 प्रतिक्रिया समय (औसत) 29.8s
#27	Muse Spark 1.1 low	Meta	2.9	8.3	$0.647	0/3	29.7s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.647 प्रतिक्रिया समय (औसत) 29.7s
#41	Qwen3.6 Plus medium	Qwen	2.9	7.8	$0.405	0/3	29.6s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.405 प्रतिक्रिया समय (औसत) 29.6s
#5	GPT-5.6 Sol low	OpenAI	5.3	9.5	$0.971	1/3	29.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.971 प्रतिक्रिया समय (औसत) 29.1s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	2.9	6.9	$0.467	0/3	29.0s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.467 प्रतिक्रिया समय (औसत) 29.0s
#9	GPT-5.5 low	OpenAI	5.3	9.3	$1.253	1/3	28.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.253 प्रतिक्रिया समय (औसत) 28.1s
#79	Grok 4.20 medium	X AI	5.3	7.1	$0.777	1/3	27.0s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.777 प्रतिक्रिया समय (औसत) 27.0s
#2	Gemini 3.6 Flash high	Google	10.0	9.7	$1.785	3/3	26.0s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $1.785 प्रतिक्रिया समय (औसत) 26.0s
#11	Qwen3.7 Max medium	Qwen	5.9	9.2	$1.116	1/3	24.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.116 प्रतिक्रिया समय (औसत) 24.9s
#55	Nemotron 3 Ultra medium	NVIDIA	3.5	7.5	$0.774	0/3	24.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.774 प्रतिक्रिया समय (औसत) 24.9s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2.9	4.8	$5.599	0/3	24.7s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $5.599 प्रतिक्रिया समय (औसत) 24.7s
#80	DeepSeek V3.2 medium	DeepSeek	2.9	7.0	$0.078	0/3	24.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.078 प्रतिक्रिया समय (औसत) 24.3s
#192	Laguna M.1 medium	Poolside	5.3	4.7	$0.033	1/3	24.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 24.1s

डोमेन-विशिष्ट रैंकिंग

मॉडल फ़िल्टर करें

डोमेन-विशिष्ट स्कोर के अनुसार शीर्ष मॉडल

डोमेन-विशिष्ट स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल