डोमेन-विशिष्ट मॉडल रैंकिंग

देखें कि डोमेन-विशिष्ट में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

औसत डोमेन-विशिष्ट स्कोर

4.7

सर्वश्रेष्ठ मॉडल

Grok 4.5 3.6

विफलता के कारण

विफलता कारण गलत उत्तर के साथ421 विफलता कारण समय समाप्त के साथ43 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ17 विफलता कारण कोई उत्तर नहीं के साथ8 विफलता कारण API त्रुटि के साथ7 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	डोमेन-विशिष्ट स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#98	GLM 5V Turbo medium	Z.ai	5.3	6.7	$0.457	1/3	38.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 38.1s
#101	GLM 5.2 none	Z.ai	5.3	6.6	$0.128	1/3	4.04s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.128 प्रतिक्रिया समय (औसत) 4.04s
#106	Hy3 preview medium	Tencent	5.3	6.5	$0.018	1/3	22.3s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 22.3s
#107	MiMo-V2.5 medium	Xiaomi	5.3	6.5	$0.082	1/3	34.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.082 प्रतिक्रिया समय (औसत) 34.5s
#110	Gemini 3.1 Flash Lite Preview low	Google	5.3	6.5	$0.646	1/3	2.36s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.646 प्रतिक्रिया समय (औसत) 2.36s
#111	Gemini 3.1 Flash Lite low	Google	5.3	6.5	$0.621	1/3	1.52s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.621 प्रतिक्रिया समय (औसत) 1.52s
#112	Gemini 3.1 Flash Lite Preview none	Google	5.3	6.4	$0.052	1/3	942ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 942ms
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	5.3	6.4	$0.073	1/3	1.17s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 1.17s
#115	Mimo V2 PRO medium	Xiaomi	5.3	6.3	$0.333	1/3	8.82s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.333 प्रतिक्रिया समय (औसत) 8.82s
#118	Claude Sonnet 5 none	Anthropic	5.3	6.3	$0.548	1/3	3.28s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 3.28s
#119	MiMo-V2-Flash medium	Xiaomi	5.9	6.3	$0.043	1/3	96.0s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.043 प्रतिक्रिया समय (औसत) 96.0s
#120	Qwen3.5-Flash medium	Qwen	5.3	6.2	$0.139	1/3	146.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.139 प्रतिक्रिया समय (औसत) 146.5s
#124	Gemini 2.5 Flash none	Google	5.9	6.2	$0.017	1/3	495ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.017 प्रतिक्रिया समय (औसत) 495ms
#129	Inkling low	Thinkingmachines	5.3	6.1	$0.187	1/3	1.99s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 1.99s
#130	Qwen3.6 Flash none	Qwen	5.3	6.1	$0.062	1/3	1.11s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.062 प्रतिक्रिया समय (औसत) 1.11s

←

1 9 10 11 15

→

डोमेन-विशिष्ट रैंकिंग

मॉडल फ़िल्टर करें

डोमेन-विशिष्ट स्कोर के अनुसार शीर्ष मॉडल

डोमेन-विशिष्ट स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल