ترتيب إخفاقات لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تواجه لم يتبع التعليمات أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

إجمالي الإخفاقات

246

النموذج الأكثر تأثرًا

Granite 4.1 8B 4

الفئات

ضمن الفئة حل الألغاز90 ضمن الفئة الذكاء العام78 ضمن الفئة حيل مضادة للذكاء الاصطناعي33 ضمن الفئة اتباع التعليمات19 ضمن الفئة البرمجة16 ضمن الفئة استدعاء الأدوات8 ضمن الفئة خاص بالمجال1 ضمن الفئة مجمّع1

141/141

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#152	Owl Alpha medium	Openrouter	2	5.6	$0.000	8/21	11.9s
إجمالي الاختبارات 21 الاختبارات الخاطئة 13 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 11.9s
#163	Mimo V2 Omni none	Xiaomi	1	5.5	$0.021	8/21	2.44s
إجمالي الاختبارات 21 الاختبارات الخاطئة 13 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 2.44s
#102	LongCat 2.0 high	Meituan	2	6.6	$0.469	9/22	148.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 13 إجمالي التكلفة $0.469 زمن الاستجابة (المتوسط) 148.7s
#127	gpt-oss-120b medium	OpenAI	3	6.1	$0.019	9/22	21.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 13 إجمالي التكلفة $0.019 زمن الاستجابة (المتوسط) 21.9s
#128	Gemini 3.1 Flash Lite none	Google	1	6.1	$0.046	9/22	1.75s
إجمالي الاختبارات 22 الاختبارات الخاطئة 13 إجمالي التكلفة $0.046 زمن الاستجابة (المتوسط) 1.75s
#134	GPT-5 Nano medium	OpenAI	2	6.1	$0.114	9/22	54.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 13 إجمالي التكلفة $0.114 زمن الاستجابة (المتوسط) 54.9s
#185	Ring-2.6-1T none	Inclusionai	2	4.8	$0.026	9/22	55.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 13 إجمالي التكلفة $0.026 زمن الاستجابة (المتوسط) 55.1s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
إجمالي الاختبارات 18 الاختبارات الخاطئة 10 إجمالي التكلفة $5.599 زمن الاستجابة (المتوسط) 9.69s
#190	Hunter Alpha medium	OpenRouter	2	4.7	$0.000	8/18	10.3s
إجمالي الاختبارات 18 الاختبارات الخاطئة 10 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 10.3s
#50	DeepSeek V4 Pro high	DeepSeek	2	7.7	$0.200	10/22	79.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.200 زمن الاستجابة (المتوسط) 79.1s
#81	Kimi K2.5 medium	Moonshot AI	2	7.0	$0.600	10/22	99.0s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.600 زمن الاستجابة (المتوسط) 99.0s
#82	Mercury 2 medium	Inception	3	7.0	$0.093	10/22	2.72s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.093 زمن الاستجابة (المتوسط) 2.72s
#86	DeepSeek V4 Pro none	DeepSeek	2	6.9	$0.096	10/22	11.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 11.6s
#96	LongCat 2.0 low	Meituan	1	6.7	$0.391	10/22	100.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 100.3s
#105	Qwen3.6 27B medium	Qwen	1	6.5	$0.779	10/22	106.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.779 زمن الاستجابة (المتوسط) 106.3s

إخفاقات لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)