डोमेन-विशिष्ट मॉडल रैंकिंग

देखें कि डोमेन-विशिष्ट में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत डोमेन-विशिष्ट स्कोर

4.7

सर्वश्रेष्ठ मॉडल

GLM 5 Turbo 2.9

विफलता के कारण

विफलता कारण गलत उत्तर के साथ421 विफलता कारण समय समाप्त के साथ43 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ17 विफलता कारण कोई उत्तर नहीं के साथ8 विफलता कारण API त्रुटि के साथ7 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	डोमेन-विशिष्ट स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#35	GLM 5.2 high	Z.ai	3.7	8.0	$0.817	0/3	74.0s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.817 प्रतिक्रिया समय (औसत) 74.0s
#42	GLM 5.2 medium	Z.ai	4.1	7.8	$0.187	0/3	45.5s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 45.5s
#49	DeepSeek V4 Flash high	DeepSeek	4.1	7.7	$0.041	0/3	100.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 100.3s
#60	GPT-5.4 Mini medium	OpenAI	4.1	7.5	$0.756	0/3	65.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.756 प्रतिक्रिया समय (औसत) 65.3s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	4.1	7.4	$0.387	0/3	17.5s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.387 प्रतिक्रिया समय (औसत) 17.5s
#90	Step 3.7 Flash high	Stepfun	4.1	6.9	$1.207	0/3	149.6s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $1.207 प्रतिक्रिया समय (औसत) 149.6s
#125	Qwen3.5-35B-A3B medium	Qwen	4.1	6.2	$0.837	0/3	88.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.837 प्रतिक्रिया समय (औसत) 88.3s
#204	Laguna Xs.2 medium	Poolside	4.1	4.1	$0.015	0/3	11.1s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 11.1s
#134	GPT-5 Nano medium	OpenAI	5.2	6.1	$0.114	1/3	204.0s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.114 प्रतिक्रिया समय (औसत) 204.0s
#5	GPT-5.6 Sol low	OpenAI	5.3	9.5	$0.971	1/3	29.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.971 प्रतिक्रिया समय (औसत) 29.1s
#8	GPT-5.6 Sol high	OpenAI	5.3	9.4	$1.234	1/3	39.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.234 प्रतिक्रिया समय (औसत) 39.5s
#13	GPT-5.5 medium	OpenAI	5.3	9.0	$4.137	1/3	164.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $4.137 प्रतिक्रिया समय (औसत) 164.1s
#20	Claude Fable 5 medium	Anthropic	5.3	8.6	$3.478	1/3	53.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $3.478 प्रतिक्रिया समय (औसत) 53.4s
#21	GPT-5.4 medium	OpenAI	5.3	8.5	$1.533	1/3	74.3s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.533 प्रतिक्रिया समय (औसत) 74.3s
#31	Gemini 3.5 Flash-Lite high	Google	5.3	8.1	$0.584	1/3	19.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.584 प्रतिक्रिया समय (औसत) 19.5s

डोमेन-विशिष्ट रैंकिंग

मॉडल फ़िल्टर करें

डोमेन-विशिष्ट स्कोर के अनुसार शीर्ष मॉडल

डोमेन-विशिष्ट स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल