ترتيب اتباع التعليمات x لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في اتباع التعليمات، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Muse Spark 1.1 1

أسباب الفشل

إجابة خاطئة61 لم يتبع التعليمات18 تنسيق إضافي3 لا توجد إجابة2 انتهت المهلة1 خطأ API1

الفئات

حل الألغاز90 الذكاء العام78 حيل مضادة للذكاء الاصطناعي33 اتباع التعليمات18 البرمجة16 استدعاء الأدوات8 خاص بالمجال1 مجمّع1

18/18

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#16	Muse Spark 1.1 medium	Meta	1	6.5	$1.357	1/2	6.31s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $1.357 زمن الاستجابة (المتوسط) 6.31s
#24	Muse Spark 1.1 low	Meta	1	7.3	$0.647	1/2	5.42s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.647 زمن الاستجابة (المتوسط) 5.42s
#27	Muse Spark 1.1 high	Meta	1	6.4	$1.694	1/2	7.81s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $1.694 زمن الاستجابة (المتوسط) 7.81s
#46	DeepSeek V4 Pro high	DeepSeek	1	7.8	$0.200	1/2	8.73s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.200 زمن الاستجابة (المتوسط) 8.73s
#83	GPT-5.6 Sol none	OpenAI	1	8.5	$0.524	1/2	1.33s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.524 زمن الاستجابة (المتوسط) 1.33s
#117	GPT-5.6 Luna low	OpenAI	1	8.5	$0.249	1/2	2.04s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.249 زمن الاستجابة (المتوسط) 2.04s
#130	Step 3.5 Flash medium	Stepfun	1	8.3	$0.108	1/2	4.78s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.108 زمن الاستجابة (المتوسط) 4.78s
#132	GPT-5.6 Terra none	OpenAI	1	8.5	$0.349	1/2	1.15s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.349 زمن الاستجابة (المتوسط) 1.15s
#134	Mimo V2 Omni medium	Xiaomi	1	8.3	$0.683	1/2	4.99s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.683 زمن الاستجابة (المتوسط) 4.99s
#140	Nemotron 3 Super medium	NVIDIA	1	7.3	$0.050	1/2	6.97s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.050 زمن الاستجابة (المتوسط) 6.97s
#172	MiniMax M2.7 medium	Minimax	1	3.8	$0.163	0/2	12.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 12.8s
#183	Trinity Large Preview none	Arcee AI	1	3.5	$0.008	0/2	822ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 822ms
#185	Grok 4.1 Fast medium	X AI	1	6.5	$0.069	1/2	4.63s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.069 زمن الاستجابة (المتوسط) 4.63s
#190	MiniMax M2.5 medium	Minimax	1	7.5	$0.340	1/2	621ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.340 زمن الاستجابة (المتوسط) 621ms
#201	Granite 4.1 8B none	IBM Granite	1	3.6	$0.007	0/2	344ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 344ms

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

اتباع التعليمات: لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية