डोमेन-विशिष्ट मॉडल रैंकिंग

देखें कि डोमेन-विशिष्ट में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

औसत डोमेन-विशिष्ट स्कोर

4.7

सर्वश्रेष्ठ मॉडल

Grok 4.5 3.6

विफलता के कारण

विफलता कारण गलत उत्तर के साथ421 विफलता कारण समय समाप्त के साथ43 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ17 विफलता कारण कोई उत्तर नहीं के साथ8 विफलता कारण API त्रुटि के साथ7 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	डोमेन-विशिष्ट स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#108	Laguna XS 2.1 medium	Poolside	2.9	6.5	$0.068	0/3	65.7s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 65.7s
#109	Qwen3.5-27B none	Qwen	3.0	6.5	$0.090	0/3	540ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.090 प्रतिक्रिया समय (औसत) 540ms
#114	Ring-2.6-1T medium	Inclusionai	3.5	6.3	$0.103	0/3	64.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.103 प्रतिक्रिया समय (औसत) 64.9s
#117	LongCat 2.0 none	Meituan	3.0	6.3	$0.044	0/3	1.72s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 1.72s
#122	Seed-2.0-Lite none	Bytedance Seed	3.6	6.2	$0.066	0/3	1.33s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.066 प्रतिक्रिया समय (औसत) 1.33s
#123	GPT-5.6 Luna low	OpenAI	3.6	6.2	$0.249	0/3	10.0s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.249 प्रतिक्रिया समय (औसत) 10.0s
#125	Qwen3.5-35B-A3B medium	Qwen	4.1	6.2	$0.837	0/3	88.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.837 प्रतिक्रिया समय (औसत) 88.3s
#126	Gemini 3.1 Flash Lite minimal	Google	2.9	6.1	$0.047	0/3	1.02s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 1.02s
#127	gpt-oss-120b medium	OpenAI	2.9	6.1	$0.019	0/3	50.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.019 प्रतिक्रिया समय (औसत) 50.9s
#128	Gemini 3.1 Flash Lite none	Google	2.9	6.1	$0.046	0/3	762ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.046 प्रतिक्रिया समय (औसत) 762ms
#140	Mimo V2 Omni medium	Xiaomi	3.0	5.9	$0.683	0/3	47.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 47.9s
#142	GPT-5.4 Mini none	OpenAI	3.5	5.9	$0.095	0/3	937ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 937ms
#146	Nemotron 3 Super medium	NVIDIA	2.9	5.7	$0.055	0/3	16.2s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.055 प्रतिक्रिया समय (औसत) 16.2s
#147	GLM 5 none	Z.ai	3.0	5.7	$0.041	0/3	2.24s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 2.24s
#149	Gemini 3.1 Flash Lite high	Google	3.6	5.6	$2.044	0/3	139.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 139.9s

डोमेन-विशिष्ट रैंकिंग

मॉडल फ़िल्टर करें

डोमेन-विशिष्ट स्कोर के अनुसार शीर्ष मॉडल

डोमेन-विशिष्ट स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल