सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Gemini 3 Flash Preview 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह19 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#32	Inkling high	Thinkingmachines	9.8	8.0	$1.006	2/2	7.00s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.006 प्रतिसाद वेळ (सरासरी) 7.00s
#45	Claude Opus 4.8 low	Anthropic	9.8	7.8	$2.077	2/2	2.78s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $2.077 प्रतिसाद वेळ (सरासरी) 2.78s
#51	MiniMax M3 medium	Minimax	9.8	7.6	$0.286	2/2	6.14s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.286 प्रतिसाद वेळ (सरासरी) 6.14s
#52	Grok Build 0.1 medium	X AI	9.8	7.6	$1.097	2/2	12.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.097 प्रतिसाद वेळ (सरासरी) 12.4s
#57	GPT-5.4 Nano medium	OpenAI	9.8	7.5	$0.138	2/2	1.88s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.138 प्रतिसाद वेळ (सरासरी) 1.88s
#77	Grok 4.3 medium	X AI	9.8	7.1	$0.779	2/2	18.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 18.6s
#83	Gemini 3.5 Flash none	Google	9.8	7.0	$1.079	2/2	3.38s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.079 प्रतिसाद वेळ (सरासरी) 3.38s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	9.8	6.7	$0.476	2/2	2.61s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.476 प्रतिसाद वेळ (सरासरी) 2.61s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9.8	5.6	$0.077	2/2	1.51s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.077 प्रतिसाद वेळ (सरासरी) 1.51s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	9.8	5.4	$0.041	2/2	1.64s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 1.64s
#184	Ling-2.6-flash none	Inclusionai	9.8	4.9	$0.002	2/2	5.52s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.002 प्रतिसाद वेळ (सरासरी) 5.52s
#194	Cobuddy medium	Baidu	9.8	4.7	$0.000	2/2	11.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 11.6s
#199	Elephant Alpha none	Openrouter	9.8	4.3	$0.000	2/2	1.03s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 1.03s
#201	Elephant Alpha medium	Openrouter	9.8	4.3	$0.000	2/2	987ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 987ms
#15	Grok 4.5 high	X AI	9.8	8.9	$1.707	2/2	6.23s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.707 प्रतिसाद वेळ (सरासरी) 6.23s

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स