डोमेन-विशिष्ट मॉडल रैंकिंग

देखें कि डोमेन-विशिष्ट में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत डोमेन-विशिष्ट स्कोर

4.7

सर्वश्रेष्ठ मॉडल

Claude Sonnet 4.6 2.9

विफलता के कारण

विफलता कारण गलत उत्तर के साथ433 विफलता कारण समय समाप्त के साथ43 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ17 विफलता कारण कोई उत्तर नहीं के साथ8 विफलता कारण API त्रुटि के साथ7 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

220/220

रैंक	मॉडल	कंपनी	डोमेन-विशिष्ट स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#88	MiMo-V2.5-Pro medium	Xiaomi	5.3	6.9	$0.187	1/3	37.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 37.9s
#98	GLM 5V Turbo medium	Z.ai	5.3	6.7	$0.457	1/3	38.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 38.1s
#57	GPT-5.4 Nano medium	OpenAI	5.9	7.5	$0.138	1/3	38.2s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.138 प्रतिक्रिया समय (औसत) 38.2s
#116	Gemma 4 31B medium	Google	7.7	6.3	$0.107	2/3	38.5s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.107 प्रतिक्रिया समय (औसत) 38.5s
#8	GPT-5.6 Sol high	OpenAI	5.3	9.4	$1.234	1/3	39.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.234 प्रतिक्रिया समय (औसत) 39.5s
#159	Hy3 preview low	Tencent	5.9	5.5	$0.015	1/3	40.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 40.4s
#71	Step 3.7 Flash low	Stepfun	5.3	7.3	$0.454	1/3	43.3s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.454 प्रतिक्रिया समय (औसत) 43.3s
#38	GPT-5.6 Terra high	OpenAI	5.3	8.0	$1.055	1/3	43.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.055 प्रतिक्रिया समय (औसत) 43.4s
#29	GPT-5 Mini medium	OpenAI	3.6	8.1	$0.237	0/3	44.6s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.237 प्रतिक्रिया समय (औसत) 44.6s
#40	Qwen3.7 Plus medium	Qwen	3.6	7.9	$0.267	0/3	45.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.267 प्रतिक्रिया समय (औसत) 45.3s
#42	GLM 5.2 medium	Z.ai	4.1	7.8	$0.182	0/3	45.5s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.182 प्रतिक्रिया समय (औसत) 45.5s
#45	Claude Opus 4.8 low	Anthropic	5.3	7.8	$2.077	1/3	45.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $2.077 प्रतिक्रिया समय (औसत) 45.5s
#7	GPT-5.6 Sol medium	OpenAI	5.9	9.4	$1.316	1/3	47.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.316 प्रतिक्रिया समय (औसत) 47.9s
#140	Mimo V2 Omni medium	Xiaomi	3.0	5.9	$0.683	0/3	47.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 47.9s
#33	Step 3.7 Flash medium	Stepfun	7.7	8.0	$0.515	2/3	48.3s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.515 प्रतिक्रिया समय (औसत) 48.3s

डोमेन-विशिष्ट रैंकिंग

मॉडल फ़िल्टर करें

डोमेन-विशिष्ट स्कोर के अनुसार शीर्ष मॉडल

डोमेन-विशिष्ट स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल