डोमेन-विशिष्ट मॉडल रैंकिंग

देखें कि डोमेन-विशिष्ट में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत डोमेन-विशिष्ट स्कोर

4.7

सर्वश्रेष्ठ मॉडल

Kimi K3 5.9

विफलता के कारण

विफलता कारण गलत उत्तर के साथ421 विफलता कारण समय समाप्त के साथ43 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ17 विफलता कारण कोई उत्तर नहीं के साथ8 विफलता कारण API त्रुटि के साथ7 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	डोमेन-विशिष्ट स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#40	Qwen3.7 Plus medium	Qwen	3.6	7.9	$0.267	0/3	45.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.267 प्रतिक्रिया समय (औसत) 45.3s
#29	GPT-5 Mini medium	OpenAI	3.6	8.1	$0.237	0/3	44.6s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.237 प्रतिक्रिया समय (औसत) 44.6s
#38	GPT-5.6 Terra high	OpenAI	5.3	8.0	$1.055	1/3	43.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.055 प्रतिक्रिया समय (औसत) 43.4s
#71	Step 3.7 Flash low	Stepfun	5.3	7.3	$0.454	1/3	43.3s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.454 प्रतिक्रिया समय (औसत) 43.3s
#159	Hy3 preview low	Tencent	5.9	5.5	$0.015	1/3	40.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 40.4s
#8	GPT-5.6 Sol high	OpenAI	5.3	9.4	$1.234	1/3	39.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.234 प्रतिक्रिया समय (औसत) 39.5s
#116	Gemma 4 31B medium	Google	7.7	6.3	$0.107	2/3	38.5s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.107 प्रतिक्रिया समय (औसत) 38.5s
#57	GPT-5.4 Nano medium	OpenAI	5.9	7.5	$0.138	1/3	38.2s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.138 प्रतिक्रिया समय (औसत) 38.2s
#98	GLM 5V Turbo medium	Z.ai	5.3	6.7	$0.457	1/3	38.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 38.1s
#88	MiMo-V2.5-Pro medium	Xiaomi	5.3	6.9	$0.187	1/3	37.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 37.9s
#28	Gemini 2.5 Flash medium	Google	5.9	8.2	$0.643	1/3	37.3s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.643 प्रतिक्रिया समय (औसत) 37.3s
#36	Inkling medium	Thinkingmachines	5.3	8.0	$0.391	1/3	35.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 35.6s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	2.9	7.2	$0.482	0/3	35.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.482 प्रतिक्रिया समय (औसत) 35.3s
#212	gpt-oss-120b none	OpenAI	3.0	3.7	$0.010	0/3	35.0s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 35.0s
#215	Step 3.5 Flash none	Stepfun	3.3	2.3	$0.020	1/1	34.5s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 34.5s

डोमेन-विशिष्ट रैंकिंग

मॉडल फ़िल्टर करें

डोमेन-विशिष्ट स्कोर के अनुसार शीर्ष मॉडल

डोमेन-विशिष्ट स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल