ترتيب إخفاقات لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تواجه لم يتبع التعليمات أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: عدد الإخفاقات ↑.

النماذج المعروضة

إجمالي الإخفاقات

246

النموذج الأكثر تأثرًا

Gemini 3.5 Flash 1

الفئات

ضمن الفئة حل الألغاز90 ضمن الفئة الذكاء العام78 ضمن الفئة حيل مضادة للذكاء الاصطناعي33 ضمن الفئة اتباع التعليمات19 ضمن الفئة البرمجة16 ضمن الفئة استدعاء الأدوات8 ضمن الفئة خاص بالمجال1 ضمن الفئة مجمّع1

141/141

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#183	Nemotron 3 Super none	NVIDIA	2	4.9	$0.008	5/22	5.97s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 5.97s
#184	Ling-2.6-flash none	Inclusionai	2	4.9	$0.002	6/22	10.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.002 زمن الاستجابة (المتوسط) 10.7s
#185	Ring-2.6-1T none	Inclusionai	2	4.8	$0.026	9/22	55.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 13 إجمالي التكلفة $0.026 زمن الاستجابة (المتوسط) 55.1s
#186	GPT-5.4 Nano none	OpenAI	2	4.8	$0.041	4/22	2.57s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 2.57s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
إجمالي الاختبارات 18 الاختبارات الخاطئة 10 إجمالي التكلفة $5.599 زمن الاستجابة (المتوسط) 9.69s
#190	Hunter Alpha medium	OpenRouter	2	4.7	$0.000	8/18	10.3s
إجمالي الاختبارات 18 الاختبارات الخاطئة 10 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 10.3s
#200	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.166	4/22	142.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.166 زمن الاستجابة (المتوسط) 142.6s
#201	Elephant Alpha medium	Openrouter	2	4.3	$0.000	6/21	1.27s
إجمالي الاختبارات 21 الاختبارات الخاطئة 15 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 1.27s
#202	Hunter Alpha none	OpenRouter	2	4.2	$0.000	6/18	4.70s
إجمالي الاختبارات 18 الاختبارات الخاطئة 12 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 4.70s
#206	MiMo-V2-Flash none	Xiaomi	2	4.0	$0.025	4/21	2.76s
إجمالي الاختبارات 21 الاختبارات الخاطئة 17 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 2.76s
#208	Grok Build 0.1 none	X AI	2	4.0	$0.547	7/19	28.7s
إجمالي الاختبارات 19 الاختبارات الخاطئة 12 إجمالي التكلفة $0.547 زمن الاستجابة (المتوسط) 28.7s
#212	gpt-oss-120b none	OpenAI	2	3.7	$0.010	6/19	21.6s
إجمالي الاختبارات 19 الاختبارات الخاطئة 13 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 21.6s
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	3.2	$0.000	2/19	728ms
إجمالي الاختبارات 19 الاختبارات الخاطئة 17 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 728ms
#24	GPT-5.2 medium	OpenAI	3	8.4	$0.951	14/22	22.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.951 زمن الاستجابة (المتوسط) 22.6s
#29	GPT-5 Mini medium	OpenAI	3	8.1	$0.237	12/22	27.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.237 زمن الاستجابة (المتوسط) 27.6s

إخفاقات لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)