ترتيب إخفاقات لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تواجه لم يتبع التعليمات أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: النتيجة ↓.

النماذج المعروضة

إجمالي الإخفاقات

246

النموذج الأكثر تأثرًا

Gemini 3.5 Flash 1

الفئات

ضمن الفئة حل الألغاز90 ضمن الفئة الذكاء العام78 ضمن الفئة حيل مضادة للذكاء الاصطناعي33 ضمن الفئة اتباع التعليمات19 ضمن الفئة البرمجة16 ضمن الفئة استدعاء الأدوات8 ضمن الفئة خاص بالمجال1 ضمن الفئة مجمّع1

141/141

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#89	Qwen3.6 Flash medium	Qwen	1	6.9	$0.738	12/22	44.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.738 زمن الاستجابة (المتوسط) 44.7s
#92	Gemini 3.5 Flash minimal	Google	1	6.8	$0.300	14/22	2.65s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.300 زمن الاستجابة (المتوسط) 2.65s
#94	Qwen3.6 35B A3B medium	Qwen	1	6.7	$0.746	13/22	58.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.746 زمن الاستجابة (المتوسط) 58.1s
#96	LongCat 2.0 low	Meituan	1	6.7	$0.391	10/22	100.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 100.3s
#98	GLM 5V Turbo medium	Z.ai	1	6.7	$0.457	11/21	23.1s
إجمالي الاختبارات 21 الاختبارات الخاطئة 10 إجمالي التكلفة $0.457 زمن الاستجابة (المتوسط) 23.1s
#101	GLM 5.2 none	Z.ai	1	6.6	$0.128	12/22	9.34s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.128 زمن الاستجابة (المتوسط) 9.34s
#102	LongCat 2.0 high	Meituan	2	6.6	$0.469	9/22	148.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 13 إجمالي التكلفة $0.469 زمن الاستجابة (المتوسط) 148.7s
#105	Qwen3.6 27B medium	Qwen	1	6.5	$0.779	10/22	106.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.779 زمن الاستجابة (المتوسط) 106.3s
#106	Hy3 preview medium	Tencent	1	6.5	$0.018	14/21	16.3s
إجمالي الاختبارات 21 الاختبارات الخاطئة 7 إجمالي التكلفة $0.018 زمن الاستجابة (المتوسط) 16.3s
#107	MiMo-V2.5 medium	Xiaomi	1	6.5	$0.082	12/22	32.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.082 زمن الاستجابة (المتوسط) 32.2s
#109	Qwen3.5-27B none	Qwen	2	6.5	$0.090	8/22	4.76s
إجمالي الاختبارات 22 الاختبارات الخاطئة 14 إجمالي التكلفة $0.090 زمن الاستجابة (المتوسط) 4.76s
#110	Gemini 3.1 Flash Lite Preview low	Google	1	6.5	$0.646	13/22	16.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.646 زمن الاستجابة (المتوسط) 16.7s
#112	Gemini 3.1 Flash Lite Preview none	Google	2	6.4	$0.052	12/22	1.58s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.052 زمن الاستجابة (المتوسط) 1.58s
#114	Ring-2.6-1T medium	Inclusionai	2	6.3	$0.103	11/22	68.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.103 زمن الاستجابة (المتوسط) 68.7s
#115	Mimo V2 PRO medium	Xiaomi	1	6.3	$0.333	12/21	22.2s
إجمالي الاختبارات 21 الاختبارات الخاطئة 9 إجمالي التكلفة $0.333 زمن الاستجابة (المتوسط) 22.2s

إخفاقات لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)