ترتيب إخفاقات لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تواجه لم يتبع التعليمات أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: النتيجة ↑.

النماذج المعروضة

إجمالي الإخفاقات

246

النموذج الأكثر تأثرًا

LFM2-24B-A2B 1

الفئات

ضمن الفئة حل الألغاز90 ضمن الفئة الذكاء العام78 ضمن الفئة حيل مضادة للذكاء الاصطناعي33 ضمن الفئة اتباع التعليمات19 ضمن الفئة البرمجة16 ضمن الفئة استدعاء الأدوات8 ضمن الفئة خاص بالمجال1 ضمن الفئة مجمّع1

141/141

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#182	GLM 4.7 Flash none	Z.ai	1	4.9	$0.016	6/22	9.15s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 9.15s
#180	GPT-4o-mini none	OpenAI	1	5.0	$0.010	5/22	1.99s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 1.99s
#179	DeepSeek V3.2 none	DeepSeek	1	5.0	$0.054	6/22	18.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.054 زمن الاستجابة (المتوسط) 18.3s
#178	MiniMax M2.7 medium	Minimax	5	5.0	$0.163	5/22	41.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 41.3s
#177	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 29.9s
#176	GLM 5 Turbo none	Z.ai	2	5.1	$0.047	6/21	2.82s
إجمالي الاختبارات 21 الاختبارات الخاطئة 15 إجمالي التكلفة $0.047 زمن الاستجابة (المتوسط) 2.82s
#175	Qwen3.5-9B none	Qwen	2	5.1	$0.021	4/22	19.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 19.2s
#174	MiMo-V2.5 none	Xiaomi	1	5.1	$0.025	5/22	4.62s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 4.62s
#173	Mistral Small 4 medium	Mistral	2	5.1	$0.096	5/22	10.8s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 10.8s
#172	Qwen3 Coder Next none	Qwen	1	5.1	$0.025	5/22	9.12s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 9.12s
#171	Mistral Small 4 none	Mistral	1	5.1	$0.022	5/22	1.20s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.022 زمن الاستجابة (المتوسط) 1.20s
#170	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.147 زمن الاستجابة (المتوسط) 3.50s
#169	Gemini 3.1 Flash Lite Preview high	Google	1	5.3	$2.310	13/16	68.1s
إجمالي الاختبارات 16 الاختبارات الخاطئة 3 إجمالي التكلفة $2.310 زمن الاستجابة (المتوسط) 68.1s
#168	Ling-2.6-1T none	Inclusionai	2	5.3	$0.016	4/22	8.58s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 8.58s
#167	Qwen3.6 35B A3B none	Qwen	2	5.3	$0.061	4/22	5.52s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.061 زمن الاستجابة (المتوسط) 5.52s

إخفاقات لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)