Samanya Buddhimatta x सूचनांचे पालन केले नाही क्रमवारी

Samanya Buddhimatta मध्ये कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

एकूण अपयशे

सर्वाधिक प्रभावित मॉडेल

LFM2-24B-A2B 1

अयशस्वी होण्याची कारणे

सूचनांचे पालन केले नाही78 चुकीचे उत्तर59 API त्रुटी12 वेळ संपला4

श्रेणी

कोडी सोडवणे90 Samanya Buddhimatta78 अँटी-एआय युक्त्या33 सूचनांचे पालन18 कोडिंग16 टूल कॉलिंग8 डोमेन-विशिष्ट1 संयुक्त1

78/78

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन केले नाही संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#210	LFM2-24B-A2B none	Liquid	1	4.0	$0.001	0/1	395ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.001 प्रतिसाद वेळ (सरासरी) 395ms
#191	Grok 4.20 Beta none	X AI	1	5.0	$0.087	0/1	541ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 541ms
#169	Qwen3.5-9B none	Qwen	1	4.4	$0.021	0/1	552ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 552ms
#189	Mercury 2 none	Inception	1	4.8	$0.030	0/1	628ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.030 प्रतिसाद वेळ (सरासरी) 628ms
#106	Gemini 3.1 Flash Lite Preview none	Google	1	4.0	$0.052	0/1	741ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 741ms
#120	Gemini 3.1 Flash Lite minimal	Google	1	4.0	$0.047	0/1	791ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.047 प्रतिसाद वेळ (सरासरी) 791ms
#78	Mercury 2 medium	Inception	1	4.8	$0.093	0/1	821ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.093 प्रतिसाद वेळ (सरासरी) 821ms
#193	Elephant Alpha none	Openrouter	1	4.0	$0.000	0/1	854ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 854ms
#183	Trinity Large Preview none	Arcee AI	1	4.5	$0.008	0/1	873ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 873ms
#195	Elephant Alpha medium	Openrouter	1	4.3	$0.000	0/1	920ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 920ms
#152	Qwen3.6 27B none	Qwen	1	5.2	$0.087	0/1	1.07s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 1.07s
#203	Grok 4.1 Fast none	X AI	1	4.4	$0.008	0/1	1.08s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 1.08s
#142	Qwen3.5-122B-A10B none	Qwen	1	5.0	$0.247	0/1	1.12s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.247 प्रतिसाद वेळ (सरासरी) 1.12s
#127	Qwen3.5-35B-A3B none	Qwen	1	6.5	$0.106	0/1	1.19s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 1.19s
#180	GPT-5.4 Nano none	OpenAI	1	3.8	$0.041	0/1	1.31s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 1.31s

1 2 3 4 5 6

→

मॉडेल फिल्टर करा

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

Samanya Buddhimatta: सूचनांचे पालन केले नाही

मॉडेल फिल्टर करा

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स