सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.5

सर्वोत्तम मॉडेल

Gemini 3 Flash Preview 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह61 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह18 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

210/210

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#1	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	2/2	4.04s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.742 प्रतिसाद वेळ (सरासरी) 4.04s
#2	Gemini 3.5 Flash high	Google	10.0	9.5	$1.976	2/2	3.35s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.976 प्रतिसाद वेळ (सरासरी) 3.35s
#3	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.971	2/2	2.27s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.971 प्रतिसाद वेळ (सरासरी) 2.27s
#4	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	2/2	2.50s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.316 प्रतिसाद वेळ (सरासरी) 2.50s
#5	GPT-5.6 Sol high	OpenAI	10.0	9.4	$1.234	2/2	2.73s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.234 प्रतिसाद वेळ (सरासरी) 2.73s
#6	GPT-5.5 low	OpenAI	9.9	9.3	$1.253	2/2	3.74s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.253 प्रतिसाद वेळ (सरासरी) 3.74s
#7	Gemini 3.1 Pro Preview medium	Google	10.0	9.2	$1.361	2/2	9.56s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.361 प्रतिसाद वेळ (सरासरी) 9.56s
#8	Qwen3.7 Max medium	Qwen	10.0	9.2	$1.116	2/2	7.46s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.116 प्रतिसाद वेळ (सरासरी) 7.46s
#9	Gemini 3.5 Flash medium	Google	9.9	9.1	$0.642	2/2	2.70s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.642 प्रतिसाद वेळ (सरासरी) 2.70s
#10	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	2/2	3.36s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $4.137 प्रतिसाद वेळ (सरासरी) 3.36s
#11	Gemini 3.5 Flash low	Google	9.9	8.9	$0.433	2/2	1.86s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.433 प्रतिसाद वेळ (सरासरी) 1.86s
#12	Grok 4.5 high	X AI	9.8	8.9	$1.707	2/2	6.23s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.707 प्रतिसाद वेळ (सरासरी) 6.23s
#13	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.920	2/2	3.04s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.920 प्रतिसाद वेळ (सरासरी) 3.04s
#14	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.931	2/2	3.32s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.931 प्रतिसाद वेळ (सरासरी) 3.32s
#15	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	2/2	1.57s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.477 प्रतिसाद वेळ (सरासरी) 1.57s

1 2 14

→

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स