डोमेन-विशिष्ट मॉडल रैंकिंग

देखें कि डोमेन-विशिष्ट में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत डोमेन-विशिष्ट स्कोर

4.7

सर्वश्रेष्ठ मॉडल

Claude Sonnet 4.6 2.9

विफलता के कारण

विफलता कारण गलत उत्तर के साथ433 विफलता कारण समय समाप्त के साथ43 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ17 विफलता कारण कोई उत्तर नहीं के साथ8 विफलता कारण API त्रुटि के साथ7 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

220/220

रैंक	मॉडल	कंपनी	डोमेन-विशिष्ट स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#2	Gemini 3.6 Flash high	Google	10.0	9.7	$1.785	3/3	26.0s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $1.785 प्रतिक्रिया समय (औसत) 26.0s
#79	Grok 4.20 medium	X AI	5.3	7.1	$0.777	1/3	27.0s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.777 प्रतिक्रिया समय (औसत) 27.0s
#9	GPT-5.5 low	OpenAI	5.3	9.3	$1.253	1/3	28.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.253 प्रतिक्रिया समय (औसत) 28.1s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	2.9	6.9	$0.467	0/3	29.0s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.467 प्रतिक्रिया समय (औसत) 29.0s
#5	GPT-5.6 Sol low	OpenAI	5.3	9.5	$0.971	1/3	29.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.971 प्रतिक्रिया समय (औसत) 29.1s
#41	Qwen3.6 Plus medium	Qwen	2.9	7.8	$0.405	0/3	29.6s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.405 प्रतिक्रिया समय (औसत) 29.6s
#27	Muse Spark 1.1 low	Meta	2.9	8.3	$0.647	0/3	29.7s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.647 प्रतिक्रिया समय (औसत) 29.7s
#78	GLM 5.1 medium	Z.ai	5.3	7.1	$0.535	1/3	29.8s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.535 प्रतिक्रिया समय (औसत) 29.8s
#10	Gemini 3.1 Pro Preview medium	Google	7.7	9.2	$1.361	2/3	32.7s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.361 प्रतिक्रिया समय (औसत) 32.7s
#107	MiMo-V2.5 medium	Xiaomi	5.3	6.5	$0.082	1/3	34.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.082 प्रतिक्रिया समय (औसत) 34.5s
#219	Step 3.5 Flash none	Stepfun	3.3	2.3	$0.020	1/1	34.5s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 34.5s
#216	gpt-oss-120b none	OpenAI	3.0	3.7	$0.010	0/3	35.0s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 35.0s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	2.9	7.2	$0.482	0/3	35.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.482 प्रतिक्रिया समय (औसत) 35.3s
#36	Inkling medium	Thinkingmachines	5.3	8.0	$0.391	1/3	35.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 35.6s
#28	Gemini 2.5 Flash medium	Google	5.9	8.2	$0.643	1/3	37.3s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.643 प्रतिक्रिया समय (औसत) 37.3s

←

1 9 10 11 15

→

डोमेन-विशिष्ट रैंकिंग

मॉडल फ़िल्टर करें

डोमेन-विशिष्ट स्कोर के अनुसार शीर्ष मॉडल

डोमेन-विशिष्ट स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल