ترتيب إخفاقات لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تواجه لم يتبع التعليمات أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

إجمالي الإخفاقات

246

النموذج الأكثر تأثرًا

Nemotron 3 Nano Omni 30b A3b Reasoning 2

الفئات

ضمن الفئة حل الألغاز90 ضمن الفئة الذكاء العام78 ضمن الفئة حيل مضادة للذكاء الاصطناعي33 ضمن الفئة اتباع التعليمات19 ضمن الفئة البرمجة16 ضمن الفئة استدعاء الأدوات8 ضمن الفئة خاص بالمجال1 ضمن الفئة مجمّع1

141/141

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#106	Hy3 preview medium	Tencent	1	6.5	$0.018	14/21	16.3s
إجمالي الاختبارات 21 الاختبارات الخاطئة 7 إجمالي التكلفة $0.018 زمن الاستجابة (المتوسط) 16.3s
#110	Gemini 3.1 Flash Lite Preview low	Google	1	6.5	$0.646	13/22	16.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.646 زمن الاستجابة (المتوسط) 16.7s
#16	GPT-5.3-Codex medium	OpenAI	2	8.9	$0.920	16/22	17.0s
إجمالي الاختبارات 22 الاختبارات الخاطئة 6 إجمالي التكلفة $0.920 زمن الاستجابة (المتوسط) 17.0s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.4	$0.000	4/19	17.1s
إجمالي الاختبارات 19 الاختبارات الخاطئة 15 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 17.1s
#179	DeepSeek V3.2 none	DeepSeek	1	5.0	$0.054	6/22	18.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.054 زمن الاستجابة (المتوسط) 18.3s
#175	Qwen3.5-9B none	Qwen	2	5.1	$0.021	4/22	19.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 19.2s
#144	Kimi K2.6 none	Moonshot AI	3	5.8	$0.184	7/22	19.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 15 إجمالي التكلفة $0.184 زمن الاستجابة (المتوسط) 19.6s
#119	MiMo-V2-Flash medium	Xiaomi	1	6.3	$0.043	12/21	20.1s
إجمالي الاختبارات 21 الاختبارات الخاطئة 9 إجمالي التكلفة $0.043 زمن الاستجابة (المتوسط) 20.1s
#28	Gemini 2.5 Flash medium	Google	1	8.2	$0.643	15/22	21.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 7 إجمالي التكلفة $0.643 زمن الاستجابة (المتوسط) 21.2s
#212	gpt-oss-120b none	OpenAI	2	3.7	$0.010	6/19	21.6s
إجمالي الاختبارات 19 الاختبارات الخاطئة 13 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 21.6s
#127	gpt-oss-120b medium	OpenAI	3	6.1	$0.019	9/22	21.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 13 إجمالي التكلفة $0.019 زمن الاستجابة (المتوسط) 21.9s
#115	Mimo V2 PRO medium	Xiaomi	1	6.3	$0.333	12/21	22.2s
إجمالي الاختبارات 21 الاختبارات الخاطئة 9 إجمالي التكلفة $0.333 زمن الاستجابة (المتوسط) 22.2s
#24	GPT-5.2 medium	OpenAI	3	8.4	$0.951	14/22	22.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.951 زمن الاستجابة (المتوسط) 22.6s
#53	GLM 5 Turbo medium	Z.ai	1	7.6	$0.323	14/21	23.0s
إجمالي الاختبارات 21 الاختبارات الخاطئة 7 إجمالي التكلفة $0.323 زمن الاستجابة (المتوسط) 23.0s
#98	GLM 5V Turbo medium	Z.ai	1	6.7	$0.457	11/21	23.1s
إجمالي الاختبارات 21 الاختبارات الخاطئة 10 إجمالي التكلفة $0.457 زمن الاستجابة (المتوسط) 23.1s

إخفاقات لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)