डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

GLM 5 Turbo 2.9

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#129	Inkling low	Thinkingmachines	5.3	6.1	$0.187	1/3	1.99s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 1.99s
#130	Qwen3.6 Flash none	Qwen	5.3	6.1	$0.062	1/3	1.11s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.062 प्रतिसाद वेळ (सरासरी) 1.11s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	5.3	6.1	$0.122	1/3	4.43s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.122 प्रतिसाद वेळ (सरासरी) 4.43s
#135	Nemotron 3 Ultra none	NVIDIA	5.3	6.1	$0.095	1/3	698ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.095 प्रतिसाद वेळ (सरासरी) 698ms
#137	Grok 4.20 Beta medium	X AI	5.3	6.0	$0.750	1/3	21.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.750 प्रतिसाद वेळ (सरासरी) 21.3s
#139	Gemini 3 PRO Preview medium	Google	5.3	6.0	$0.385	1/3	7.01s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.385 प्रतिसाद वेळ (सरासरी) 7.01s
#148	Qwen3.5-122B-A10B none	Qwen	5.3	5.7	$0.247	1/3	465ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.247 प्रतिसाद वेळ (सरासरी) 465ms
#151	GLM 5V Turbo none	Z.ai	5.3	5.6	$0.052	1/3	2.09s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 2.09s
#152	Owl Alpha medium	Openrouter	5.3	5.6	$0.000	1/3	8.58s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 8.58s
#154	Owl Alpha none	Openrouter	5.3	5.6	$0.000	1/3	3.00s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 3.00s
#156	DeepSeek V4 Flash none	DeepSeek	5.3	5.6	$0.042	1/3	19.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.042 प्रतिसाद वेळ (सरासरी) 19.7s
#160	MiMo-V2.5-Pro none	Xiaomi	5.3	5.5	$0.068	1/3	877ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 877ms
#161	Kimi K2.5 none	Moonshot AI	5.3	5.5	$0.127	1/3	4.38s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.127 प्रतिसाद वेळ (सरासरी) 4.38s
#163	Mimo V2 Omni none	Xiaomi	5.3	5.5	$0.021	1/3	2.10s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 2.10s
#166	Laguna XS 2.1 none	Poolside	5.3	5.3	$0.008	1/3	364ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 364ms

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स