ترتيب إخفاقات لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تواجه لم يتبع التعليمات أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: النتيجة ↑.

النماذج المعروضة

إجمالي الإخفاقات

245

النموذج الأكثر تأثرًا

LFM2-24B-A2B 1

الفئات

ضمن الفئة حل الألغاز90 ضمن الفئة الذكاء العام78 ضمن الفئة حيل مضادة للذكاء الاصطناعي33 ضمن الفئة اتباع التعليمات18 ضمن الفئة البرمجة16 ضمن الفئة استدعاء الأدوات8 ضمن الفئة خاص بالمجال1 ضمن الفئة مجمّع1

140/140

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#193	Elephant Alpha none	Openrouter	3	4.3	$0.000	5/21	1.22s
إجمالي الاختبارات 21 الاختبارات الخاطئة 16 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 1.22s
#191	Grok 4.20 Beta none	X AI	1	4.4	$0.087	6/18	1.19s
إجمالي الاختبارات 18 الاختبارات الخاطئة 12 إجمالي التكلفة $0.087 زمن الاستجابة (المتوسط) 1.19s
#190	MiniMax M2.5 medium	Minimax	3	4.6	$0.340	5/22	68.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.340 زمن الاستجابة (المتوسط) 68.3s
#189	Mercury 2 none	Inception	1	4.6	$0.030	4/22	829ms
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.030 زمن الاستجابة (المتوسط) 829ms
#188	Cobuddy medium	Baidu	3	4.7	$0.000	7/21	39.9s
إجمالي الاختبارات 21 الاختبارات الخاطئة 14 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 39.9s
#187	Qwen3 Coder Next medium	Qwen	3	4.7	$0.032	4/22	9.61s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.032 زمن الاستجابة (المتوسط) 9.61s
#186	Laguna M.1 medium	Poolside	1	4.7	$0.033	9/19	14.7s
إجمالي الاختبارات 19 الاختبارات الخاطئة 10 إجمالي التكلفة $0.033 زمن الاستجابة (المتوسط) 14.7s
#185	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
إجمالي الاختبارات 19 الاختبارات الخاطئة 10 إجمالي التكلفة $0.069 زمن الاستجابة (المتوسط) 23.8s
#184	Hunter Alpha medium	OpenRouter	2	4.7	$0.000	8/18	10.3s
إجمالي الاختبارات 18 الاختبارات الخاطئة 10 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 10.3s
#183	Trinity Large Preview none	Arcee AI	3	4.8	$0.008	4/21	2.98s
إجمالي الاختبارات 21 الاختبارات الخاطئة 17 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 2.98s
#181	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
إجمالي الاختبارات 18 الاختبارات الخاطئة 10 إجمالي التكلفة $5.599 زمن الاستجابة (المتوسط) 9.69s
#180	GPT-5.4 Nano none	OpenAI	2	4.8	$0.041	4/22	2.57s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 2.57s
#179	Ring-2.6-1T none	Inclusionai	2	4.8	$0.026	9/22	55.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 13 إجمالي التكلفة $0.026 زمن الاستجابة (المتوسط) 55.1s
#178	Ling-2.6-flash none	Inclusionai	2	4.9	$0.002	6/22	10.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.002 زمن الاستجابة (المتوسط) 10.7s
#177	Nemotron 3 Super none	NVIDIA	2	4.9	$0.008	5/22	5.97s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 5.97s

إخفاقات لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)