ترتيب الذكاء العام x لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في الذكاء العام، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

أسباب الفشل

لم يتبع التعليمات78 إجابة خاطئة59 خطأ API12 انتهت المهلة4

الفئات

حل الألغاز90 الذكاء العام78 حيل مضادة للذكاء الاصطناعي33 اتباع التعليمات18 البرمجة16 استدعاء الأدوات8 خاص بالمجال1 مجمّع1

78/78

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#180	GPT-5.4 Nano none	OpenAI	1	3.8	$0.041	0/1	1.31s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 1.31s
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	5.8	$5.599	0/1	6.40s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $5.599 زمن الاستجابة (المتوسط) 6.40s
#183	Trinity Large Preview none	Arcee AI	1	4.5	$0.008	0/1	873ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 873ms
#184	Hunter Alpha medium	OpenRouter	1	7.0	$0.000	0/1	6.44s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 6.44s
#185	Grok 4.1 Fast medium	X AI	1	4.2	$0.069	0/1	16.2s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.069 زمن الاستجابة (المتوسط) 16.2s
#187	Qwen3 Coder Next medium	Qwen	1	6.3	$0.032	0/1	1.39s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.032 زمن الاستجابة (المتوسط) 1.39s
#188	Cobuddy medium	Baidu	1	4.2	$0.000	0/1	23.2s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 23.2s
#189	Mercury 2 none	Inception	1	4.8	$0.030	0/1	628ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.030 زمن الاستجابة (المتوسط) 628ms
#190	MiniMax M2.5 medium	Minimax	1	3.8	$0.340	0/1	6.63s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.340 زمن الاستجابة (المتوسط) 6.63s
#191	Grok 4.20 Beta none	X AI	1	5.0	$0.087	0/1	541ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.087 زمن الاستجابة (المتوسط) 541ms
#193	Elephant Alpha none	Openrouter	1	4.0	$0.000	0/1	854ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 854ms
#195	Elephant Alpha medium	Openrouter	1	4.3	$0.000	0/1	920ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 920ms
#196	Hunter Alpha none	OpenRouter	1	6.1	$0.000	0/1	2.71s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 2.71s
#199	Hy3 preview none	Tencent	1	4.1	$0.003	0/1	16.1s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.003 زمن الاستجابة (المتوسط) 16.1s
#200	MiMo-V2-Flash none	Xiaomi	1	4.6	$0.025	0/1	1.67s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 1.67s

←

1 2 3 4 5 6

→

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

الذكاء العام: لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية