डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Gemini 3.6 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#119	MiMo-V2-Flash medium	Xiaomi	5.9	6.3	$0.043	1/3	96.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.043 प्रतिसाद वेळ (सरासरी) 96.0s
#120	Qwen3.5-Flash medium	Qwen	5.3	6.2	$0.139	1/3	146.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.139 प्रतिसाद वेळ (सरासरी) 146.5s
#124	Gemini 2.5 Flash none	Google	5.9	6.2	$0.017	1/3	495ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.017 प्रतिसाद वेळ (सरासरी) 495ms
#129	Inkling low	Thinkingmachines	5.3	6.1	$0.187	1/3	1.99s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 1.99s
#130	Qwen3.6 Flash none	Qwen	5.3	6.1	$0.062	1/3	1.11s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.062 प्रतिसाद वेळ (सरासरी) 1.11s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	5.3	6.1	$0.122	1/3	4.43s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.122 प्रतिसाद वेळ (सरासरी) 4.43s
#134	GPT-5 Nano medium	OpenAI	5.2	6.1	$0.114	1/3	204.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.114 प्रतिसाद वेळ (सरासरी) 204.0s
#135	Nemotron 3 Ultra none	NVIDIA	5.3	6.1	$0.095	1/3	698ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.095 प्रतिसाद वेळ (सरासरी) 698ms
#136	Step 3.5 Flash medium	Stepfun	5.3	6.0	$0.108	1/3	170.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.108 प्रतिसाद वेळ (सरासरी) 170.5s
#137	Grok 4.20 Beta medium	X AI	5.3	6.0	$0.750	1/3	21.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.750 प्रतिसाद वेळ (सरासरी) 21.3s
#138	GPT-5.6 Terra none	OpenAI	5.3	6.0	$0.349	1/3	757ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.349 प्रतिसाद वेळ (सरासरी) 757ms
#139	Gemini 3 PRO Preview medium	Google	5.3	6.0	$0.385	1/3	7.01s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.385 प्रतिसाद वेळ (सरासरी) 7.01s
#141	Hy3 preview high	Tencent	5.3	5.9	$0.048	1/3	109.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.048 प्रतिसाद वेळ (सरासरी) 109.0s
#143	North Mini Code medium	Cohere	5.3	5.9	$0.000	1/3	71.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 71.4s
#144	Kimi K2.6 none	Moonshot AI	5.3	5.8	$0.184	1/3	1.48s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.184 प्रतिसाद वेळ (सरासरी) 1.48s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स