सूचनांचे पालन मॉडेल क्रमवारी

सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.

दाखवलेली मॉडेल्स

सरासरी सूचनांचे पालन स्कोअर

8.6

सर्वोत्तम मॉडेल

Gemini 3 Flash Preview 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह57 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह18 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2 अयशस्वी होण्याचे कारण API त्रुटी सह1 अयशस्वी होण्याचे कारण वेळ संपला सह1

206/206

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#1	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	2/2	4.04s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.742 प्रतिसाद वेळ (सरासरी) 4.04s
#2	Gemini 3.5 Flash high	Google	10.0	9.5	$1.976	2/2	3.35s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.976 प्रतिसाद वेळ (सरासरी) 3.35s
#3	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.971	2/2	2.27s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.971 प्रतिसाद वेळ (सरासरी) 2.27s
#4	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	2/2	2.50s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.316 प्रतिसाद वेळ (सरासरी) 2.50s
#5	GPT-5.6 Sol high	OpenAI	10.0	9.4	$1.234	2/2	2.73s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.234 प्रतिसाद वेळ (सरासरी) 2.73s
#7	Gemini 3.1 Pro Preview medium	Google	10.0	9.2	$1.361	2/2	9.56s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.361 प्रतिसाद वेळ (सरासरी) 9.56s
#8	Qwen3.7 Max medium	Qwen	10.0	9.2	$1.116	2/2	7.46s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.116 प्रतिसाद वेळ (सरासरी) 7.46s
#10	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	2/2	3.36s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $4.137 प्रतिसाद वेळ (सरासरी) 3.36s
#13	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.920	2/2	3.04s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.920 प्रतिसाद वेळ (सरासरी) 3.04s
#14	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.931	2/2	3.32s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.931 प्रतिसाद वेळ (सरासरी) 3.32s
#15	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	2/2	1.57s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.477 प्रतिसाद वेळ (सरासरी) 1.57s
#17	Claude Fable 5 medium	Anthropic	10.0	8.6	$3.478	2/2	5.90s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $3.478 प्रतिसाद वेळ (सरासरी) 5.90s
#18	GPT-5.4 medium	OpenAI	10.0	8.5	$1.533	2/2	3.11s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.533 प्रतिसाद वेळ (सरासरी) 3.11s
#19	Qwen3.6 Max Preview medium	Qwen	10.0	8.4	$1.143	2/2	24.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.143 प्रतिसाद वेळ (सरासरी) 24.3s
#26	GPT-5 Mini medium	OpenAI	10.0	8.1	$0.237	2/2	11.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.237 प्रतिसाद वेळ (सरासरी) 11.6s

1 2 14

→

सूचनांचे पालन क्रमवारी

मॉडेल फिल्टर करा

सूचनांचे पालन स्कोअर नुसार शीर्ष मॉडेल्स

सूचनांचे पालन स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स