डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Claude Sonnet 4.6 2.9

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#104	Gemini 3.5 Flash-Lite medium	Google	2.9	6.5	$0.369	0/3	6.62s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.369 प्रतिसाद वेळ (सरासरी) 6.62s
#139	Gemini 3 PRO Preview medium	Google	5.3	6.0	$0.385	1/3	7.01s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.385 प्रतिसाद वेळ (सरासरी) 7.01s
#167	Qwen3.6 35B A3B none	Qwen	3.5	5.3	$0.061	0/3	7.45s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.061 प्रतिसाद वेळ (सरासरी) 7.45s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	2.9	5.6	$0.077	0/3	7.47s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.077 प्रतिसाद वेळ (सरासरी) 7.47s
#65	Gemini 3 Flash Preview low	Google	5.3	7.4	$0.177	1/3	8.05s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.177 प्रतिसाद वेळ (सरासरी) 8.05s
#59	GPT-5.6 Terra low	OpenAI	5.3	7.5	$0.519	1/3	8.34s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.519 प्रतिसाद वेळ (सरासरी) 8.34s
#152	Owl Alpha medium	Openrouter	5.3	5.6	$0.000	1/3	8.58s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 8.58s
#115	Mimo V2 PRO medium	Xiaomi	5.3	6.3	$0.333	1/3	8.82s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.333 प्रतिसाद वेळ (सरासरी) 8.82s
#123	GPT-5.6 Luna low	OpenAI	3.6	6.2	$0.249	0/3	10.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.249 प्रतिसाद वेळ (सरासरी) 10.0s
#190	Hunter Alpha medium	OpenRouter	3.0	4.7	$0.000	0/3	10.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 10.5s
#83	Gemini 3.5 Flash none	Google	7.6	7.0	$1.079	2/3	10.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.079 प्रतिसाद वेळ (सरासरी) 10.6s
#204	Laguna Xs.2 medium	Poolside	4.1	4.1	$0.015	0/3	11.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 11.1s
#1	Gemini 3.6 Flash medium	Google	8.2	9.9	$0.831	2/3	12.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.831 प्रतिसाद वेळ (सरासरी) 12.6s
#58	GPT-5.3 Chat none	OpenAI	3.5	7.5	$0.571	0/3	13.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.571 प्रतिसाद वेळ (सरासरी) 13.0s
#4	Gemini 3.5 Flash high	Google	7.6	9.5	$1.976	2/3	14.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.976 प्रतिसाद वेळ (सरासरी) 14.1s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स