डोमेन-विशिष्ट मॉडल रैंकिंग

देखें कि डोमेन-विशिष्ट में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

औसत डोमेन-विशिष्ट स्कोर

4.7

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ421 विफलता कारण समय समाप्त के साथ43 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ17 विफलता कारण कोई उत्तर नहीं के साथ8 विफलता कारण API त्रुटि के साथ7 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	डोमेन-विशिष्ट स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#160	MiMo-V2.5-Pro none	Xiaomi	5.3	5.5	$0.068	1/3	877ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 877ms
#161	Kimi K2.5 none	Moonshot AI	5.3	5.5	$0.127	1/3	4.38s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.127 प्रतिक्रिया समय (औसत) 4.38s
#163	Mimo V2 Omni none	Xiaomi	5.3	5.5	$0.021	1/3	2.10s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 2.10s
#166	Laguna XS 2.1 none	Poolside	5.3	5.3	$0.008	1/3	364ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 364ms
#169	Gemini 3.1 Flash Lite Preview high	Google	5.3	5.3	$2.310	1/3	127.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $2.310 प्रतिक्रिया समय (औसत) 127.6s
#170	Inkling none	Thinkingmachines	5.3	5.2	$0.147	1/3	1.45s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.147 प्रतिक्रिया समय (औसत) 1.45s
#171	Mistral Small 4 none	Mistral	5.3	5.1	$0.022	1/3	367ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.022 प्रतिक्रिया समय (औसत) 367ms
#172	Qwen3 Coder Next none	Qwen	5.3	5.1	$0.025	1/3	962ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 962ms
#176	GLM 5 Turbo none	Z.ai	5.3	5.1	$0.047	1/3	1.97s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 1.97s
#189	Trinity Large Preview none	Arcee AI	5.3	4.8	$0.008	1/3	877ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 877ms
#193	Qwen3 Coder Next medium	Qwen	5.3	4.7	$0.032	1/3	638ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.032 प्रतिक्रिया समय (औसत) 638ms
#202	Hunter Alpha none	OpenRouter	5.3	4.2	$0.000	1/3	2.33s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 2.33s
#211	Laguna Xs.2 none	Poolside	5.3	3.8	$0.004	1/3	371ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 371ms
#5	GPT-5.6 Sol low	OpenAI	5.3	9.5	$0.971	1/3	29.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.971 प्रतिक्रिया समय (औसत) 29.1s
#8	GPT-5.6 Sol high	OpenAI	5.3	9.4	$1.234	1/3	39.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.234 प्रतिक्रिया समय (औसत) 39.5s

डोमेन-विशिष्ट रैंकिंग

मॉडल फ़िल्टर करें

डोमेन-विशिष्ट स्कोर के अनुसार शीर्ष मॉडल

डोमेन-विशिष्ट स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल