ترتيب إخفاقات لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تواجه لم يتبع التعليمات أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: النتيجة ↑.

النماذج المعروضة

إجمالي الإخفاقات

245

النموذج الأكثر تأثرًا

LFM2-24B-A2B 1

الفئات

ضمن الفئة حل الألغاز90 ضمن الفئة الذكاء العام78 ضمن الفئة حيل مضادة للذكاء الاصطناعي33 ضمن الفئة اتباع التعليمات18 ضمن الفئة البرمجة16 ضمن الفئة استدعاء الأدوات8 ضمن الفئة خاص بالمجال1 ضمن الفئة مجمّع1

140/140

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#210	LFM2-24B-A2B none	Liquid	1	2.2	$0.001	2/16	782ms
إجمالي الاختبارات 16 الاختبارات الخاطئة 14 إجمالي التكلفة $0.001 زمن الاستجابة (المتوسط) 782ms
#209	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
إجمالي الاختبارات 12 الاختبارات الخاطئة 6 إجمالي التكلفة $0.020 زمن الاستجابة (المتوسط) 39.0s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	3.2	$0.000	2/19	728ms
إجمالي الاختبارات 19 الاختبارات الخاطئة 17 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 728ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.4	$0.000	4/19	17.1s
إجمالي الاختبارات 19 الاختبارات الخاطئة 15 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 17.1s
#206	gpt-oss-120b none	OpenAI	2	3.7	$0.010	6/19	21.6s
إجمالي الاختبارات 19 الاختبارات الخاطئة 13 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 21.6s
#205	Laguna Xs.2 none	Poolside	1	3.8	$0.004	5/19	806ms
إجمالي الاختبارات 19 الاختبارات الخاطئة 14 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 806ms
#204	Qwen3.5-9B medium	Qwen	1	3.8	$0.036	3/22	82.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 19 إجمالي التكلفة $0.036 زمن الاستجابة (المتوسط) 82.2s
#203	Grok 4.1 Fast none	X AI	3	3.8	$0.008	3/19	1.62s
إجمالي الاختبارات 19 الاختبارات الخاطئة 16 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 1.62s
#202	Grok Build 0.1 none	X AI	2	4.0	$0.547	7/19	28.7s
إجمالي الاختبارات 19 الاختبارات الخاطئة 12 إجمالي التكلفة $0.547 زمن الاستجابة (المتوسط) 28.7s
#201	Granite 4.1 8B none	IBM Granite	4	4.0	$0.007	2/22	1.45s
إجمالي الاختبارات 22 الاختبارات الخاطئة 20 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 1.45s
#200	MiMo-V2-Flash none	Xiaomi	2	4.0	$0.025	4/21	2.76s
إجمالي الاختبارات 21 الاختبارات الخاطئة 17 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 2.76s
#199	Hy3 preview none	Tencent	4	4.0	$0.003	4/21	12.9s
إجمالي الاختبارات 21 الاختبارات الخاطئة 17 إجمالي التكلفة $0.003 زمن الاستجابة (المتوسط) 12.9s
#196	Hunter Alpha none	OpenRouter	2	4.2	$0.000	6/18	4.70s
إجمالي الاختبارات 18 الاختبارات الخاطئة 12 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 4.70s
#195	Elephant Alpha medium	Openrouter	2	4.3	$0.000	6/21	1.27s
إجمالي الاختبارات 21 الاختبارات الخاطئة 15 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 1.27s
#194	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.166	4/22	142.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.166 زمن الاستجابة (المتوسط) 142.6s

إخفاقات لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)