ترتيب إخفاقات لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تواجه لم يتبع التعليمات أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

إجمالي الإخفاقات

245

النموذج الأكثر تأثرًا

Granite 4.1 8B 4

الفئات

ضمن الفئة حل الألغاز90 ضمن الفئة الذكاء العام78 ضمن الفئة حيل مضادة للذكاء الاصطناعي33 ضمن الفئة اتباع التعليمات18 ضمن الفئة البرمجة16 ضمن الفئة استدعاء الأدوات8 ضمن الفئة خاص بالمجال1 ضمن الفئة مجمّع1

140/140

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#200	MiMo-V2-Flash none	Xiaomi	2	4.0	$0.025	4/21	2.76s
إجمالي الاختبارات 21 الاختبارات الخاطئة 17 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 2.76s
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.4	$0.000	4/19	17.1s
إجمالي الاختبارات 19 الاختبارات الخاطئة 15 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 17.1s
#150	DeepSeek V4 Flash none	DeepSeek	1	5.6	$0.044	5/22	36.8s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 36.8s
#160	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	5/22	1.55s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 1.55s
#165	Mistral Small 4 none	Mistral	1	5.1	$0.022	5/22	1.20s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.022 زمن الاستجابة (المتوسط) 1.20s
#166	Qwen3 Coder Next none	Qwen	1	5.1	$0.025	5/22	9.12s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 9.12s
#167	Mistral Small 4 medium	Mistral	2	5.1	$0.096	5/22	10.8s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 10.8s
#168	MiMo-V2.5 none	Xiaomi	1	5.1	$0.025	5/22	4.62s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 4.62s
#172	MiniMax M2.7 medium	Minimax	5	5.0	$0.163	5/22	41.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 41.3s
#174	GPT-4o-mini none	OpenAI	1	5.0	$0.010	5/22	1.99s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 1.99s
#177	Nemotron 3 Super none	NVIDIA	2	4.9	$0.008	5/22	5.97s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 5.97s
#190	MiniMax M2.5 medium	Minimax	3	4.6	$0.340	5/22	68.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.340 زمن الاستجابة (المتوسط) 68.3s
#193	Elephant Alpha none	Openrouter	3	4.3	$0.000	5/21	1.22s
إجمالي الاختبارات 21 الاختبارات الخاطئة 16 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 1.22s
#205	Laguna Xs.2 none	Poolside	1	3.8	$0.004	5/19	806ms
إجمالي الاختبارات 19 الاختبارات الخاطئة 14 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 806ms
#136	GPT-5.4 Mini none	OpenAI	3	5.9	$0.095	6/22	1.53s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 1.53s

إخفاقات لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)