डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Gemini 3 Flash Preview 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह412 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

210/210

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#48	Grok Build 0.1 medium	X AI	5.3	7.6	$1.097	1/3	158.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.097 प्रतिसाद वेळ (सरासरी) 158.0s
#50	GPT-5.6 Luna medium	OpenAI	5.3	7.6	$0.352	1/3	17.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.352 प्रतिसाद वेळ (सरासरी) 17.4s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	5.3	7.5	$0.437	1/3	17.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.437 प्रतिसाद वेळ (सरासरी) 17.5s
#58	Qwen3.5-27B medium	Qwen	5.3	7.4	$1.627	1/3	79.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.627 प्रतिसाद वेळ (सरासरी) 79.5s
#74	GLM 5.1 medium	Z.ai	5.3	7.1	$0.535	1/3	29.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.535 प्रतिसाद वेळ (सरासरी) 29.8s
#75	Grok 4.20 medium	X AI	5.3	7.1	$0.777	1/3	27.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.777 प्रतिसाद वेळ (सरासरी) 27.0s
#82	DeepSeek V4 Pro none	DeepSeek	5.3	6.9	$0.096	1/3	3.72s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 3.72s
#84	MiMo-V2.5-Pro medium	Xiaomi	5.3	6.9	$0.187	1/3	37.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 37.9s
#96	GLM 5.2 none	Z.ai	5.3	6.6	$0.151	1/3	4.04s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.151 प्रतिसाद वेळ (सरासरी) 4.04s
#100	Hy3 preview medium	Tencent	5.3	6.5	$0.018	1/3	22.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.018 प्रतिसाद वेळ (सरासरी) 22.3s
#101	MiMo-V2.5 medium	Xiaomi	5.3	6.5	$0.082	1/3	34.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.082 प्रतिसाद वेळ (सरासरी) 34.5s
#104	Gemini 3.1 Flash Lite Preview low	Google	5.3	6.5	$0.646	1/3	2.36s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.646 प्रतिसाद वेळ (सरासरी) 2.36s
#105	Gemini 3.1 Flash Lite low	Google	5.3	6.5	$0.621	1/3	1.52s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.621 प्रतिसाद वेळ (सरासरी) 1.52s
#106	Gemini 3.1 Flash Lite Preview none	Google	5.3	6.4	$0.052	1/3	942ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 942ms
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	5.3	6.4	$0.073	1/3	1.17s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.073 प्रतिसाद वेळ (सरासरी) 1.17s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स