डोमेन-विशिष्ट मॉडल रैंकिंग

देखें कि डोमेन-विशिष्ट में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत डोमेन-विशिष्ट स्कोर

4.7

सर्वश्रेष्ठ मॉडल

Kimi K3 5.9

विफलता के कारण

विफलता कारण गलत उत्तर के साथ412 विफलता कारण समय समाप्त के साथ43 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ17 विफलता कारण कोई उत्तर नहीं के साथ8 विफलता कारण API त्रुटि के साथ7 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

210/210

रैंक	मॉडल	कंपनी	डोमेन-विशिष्ट स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#48	Grok Build 0.1 medium	X AI	5.3	7.6	$1.097	1/3	158.0s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.097 प्रतिक्रिया समय (औसत) 158.0s
#46	DeepSeek V4 Pro high	DeepSeek	3.6	7.7	$0.200	0/3	151.5s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.200 प्रतिक्रिया समय (औसत) 151.5s
#86	Step 3.7 Flash high	Stepfun	4.1	6.9	$1.207	0/3	149.6s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $1.207 प्रतिक्रिया समय (औसत) 149.6s
#114	Qwen3.5-Flash medium	Qwen	5.3	6.2	$0.139	1/3	146.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.139 प्रतिक्रिया समय (औसत) 146.5s
#143	Gemini 3.1 Flash Lite high	Google	3.6	5.6	$2.044	0/3	139.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 139.9s
#204	Qwen3.5-9B medium	Qwen	3.6	3.8	$0.036	0/3	137.7s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.036 प्रतिक्रिया समय (औसत) 137.7s
#77	Kimi K2.5 medium	Moonshot AI	3.5	7.0	$0.600	0/3	137.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.600 प्रतिक्रिया समय (औसत) 137.3s
#188	Cobuddy medium	Baidu	2.9	4.7	$0.000	0/3	128.2s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 128.2s
#163	Gemini 3.1 Flash Lite Preview high	Google	5.3	5.3	$2.310	1/3	127.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $2.310 प्रतिक्रिया समय (औसत) 127.6s
#185	Grok 4.1 Fast medium	X AI	5.8	4.7	$0.069	1/3	121.8s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.069 प्रतिक्रिया समय (औसत) 121.8s
#135	Hy3 preview high	Tencent	5.3	5.9	$0.048	1/3	109.0s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 109.0s
#202	Grok Build 0.1 none	X AI	3.6	4.0	$0.547	0/3	103.7s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 103.7s
#45	DeepSeek V4 Flash high	DeepSeek	4.1	7.7	$0.042	0/3	100.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 100.3s
#113	MiMo-V2-Flash medium	Xiaomi	5.9	6.3	$0.043	1/3	96.0s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.043 प्रतिक्रिया समय (औसत) 96.0s
#19	Qwen3.6 Max Preview medium	Qwen	2.9	8.4	$1.143	0/3	95.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $1.143 प्रतिक्रिया समय (औसत) 95.9s

डोमेन-विशिष्ट रैंकिंग

मॉडल फ़िल्टर करें

डोमेन-विशिष्ट स्कोर के अनुसार शीर्ष मॉडल

डोमेन-विशिष्ट स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल