ترتيب الذكاء العام x لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في الذكاء العام، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

أسباب الفشل

لم يتبع التعليمات78 إجابة خاطئة59 خطأ API12 انتهت المهلة4

الفئات

حل الألغاز90 الذكاء العام78 حيل مضادة للذكاء الاصطناعي33 اتباع التعليمات18 البرمجة16 استدعاء الأدوات8 خاص بالمجال1 مجمّع1

78/78

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#56	GPT-5.4 Mini medium	OpenAI	1	4.5	$0.756	0/1	3.72s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.756 زمن الاستجابة (المتوسط) 3.72s
#58	Qwen3.5-27B medium	Qwen	1	6.1	$1.627	0/1	101.4s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $1.627 زمن الاستجابة (المتوسط) 101.4s
#63	Claude Sonnet 4.6 none	Anthropic	1	6.1	$0.661	0/1	2.56s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.661 زمن الاستجابة (المتوسط) 2.56s
#71	Qwen3.7 Plus none	Qwen	1	5.3	$0.106	0/1	1.33s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 1.33s
#73	Grok 4.3 medium	X AI	1	5.4	$0.779	0/1	24.7s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.779 زمن الاستجابة (المتوسط) 24.7s
#75	Grok 4.20 medium	X AI	1	3.9	$0.777	0/1	24.5s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.777 زمن الاستجابة (المتوسط) 24.5s
#77	Kimi K2.5 medium	Moonshot AI	1	6.5	$0.600	0/1	69.7s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.600 زمن الاستجابة (المتوسط) 69.7s
#78	Mercury 2 medium	Inception	1	4.8	$0.093	0/1	821ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.093 زمن الاستجابة (المتوسط) 821ms
#80	Seed-2.0-Mini medium	Bytedance Seed	1	5.1	$0.101	0/1	36.7s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.101 زمن الاستجابة (المتوسط) 36.7s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	4.7	$0.467	0/1	2.35s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.467 زمن الاستجابة (المتوسط) 2.35s
#84	MiMo-V2.5-Pro medium	Xiaomi	1	5.5	$0.187	0/1	4.02s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 4.02s
#90	Qwen3.6 35B A3B medium	Qwen	1	4.4	$0.746	0/1	8.66s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.746 زمن الاستجابة (المتوسط) 8.66s
#99	Qwen3.6 27B medium	Qwen	1	6.5	$0.779	0/1	39.5s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.779 زمن الاستجابة (المتوسط) 39.5s
#101	MiMo-V2.5 medium	Xiaomi	1	5.4	$0.082	0/1	5.37s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.082 زمن الاستجابة (المتوسط) 5.37s
#103	Qwen3.5-27B none	Qwen	1	5.0	$0.090	0/1	2.51s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.090 زمن الاستجابة (المتوسط) 2.51s

←

1 2 3 4 5 6

→

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

الذكاء العام: لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية