डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Gemini 3.6 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#111	Gemini 3.1 Flash Lite low	Google	5.3	6.5	$0.621	1/3	1.52s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.621 प्रतिसाद वेळ (सरासरी) 1.52s
#112	Gemini 3.1 Flash Lite Preview none	Google	5.3	6.4	$0.052	1/3	942ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 942ms
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	5.3	6.4	$0.073	1/3	1.17s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.073 प्रतिसाद वेळ (सरासरी) 1.17s
#115	Mimo V2 PRO medium	Xiaomi	5.3	6.3	$0.333	1/3	8.82s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.333 प्रतिसाद वेळ (सरासरी) 8.82s
#129	Inkling low	Thinkingmachines	5.3	6.1	$0.187	1/3	1.99s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 1.99s
#130	Qwen3.6 Flash none	Qwen	5.3	6.1	$0.062	1/3	1.11s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.062 प्रतिसाद वेळ (सरासरी) 1.11s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	5.3	6.1	$0.122	1/3	4.43s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.122 प्रतिसाद वेळ (सरासरी) 4.43s
#135	Nemotron 3 Ultra none	NVIDIA	5.3	6.1	$0.095	1/3	698ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.095 प्रतिसाद वेळ (सरासरी) 698ms
#137	Grok 4.20 Beta medium	X AI	5.3	6.0	$0.750	1/3	21.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.750 प्रतिसाद वेळ (सरासरी) 21.3s
#139	Gemini 3 PRO Preview medium	Google	5.3	6.0	$0.385	1/3	7.01s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.385 प्रतिसाद वेळ (सरासरी) 7.01s
#148	Qwen3.5-122B-A10B none	Qwen	5.3	5.7	$0.247	1/3	465ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.247 प्रतिसाद वेळ (सरासरी) 465ms
#151	GLM 5V Turbo none	Z.ai	5.3	5.6	$0.052	1/3	2.09s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 2.09s
#152	Owl Alpha medium	Openrouter	5.3	5.6	$0.000	1/3	8.58s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 8.58s
#154	Owl Alpha none	Openrouter	5.3	5.6	$0.000	1/3	3.00s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 3.00s
#156	DeepSeek V4 Flash none	DeepSeek	5.3	5.6	$0.042	1/3	19.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.042 प्रतिसाद वेळ (सरासरी) 19.7s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स