ترتيب حل الألغاز x لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في حل الألغاز، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Mistral Small 4 1

أسباب الفشل

إجابة خاطئة201 لم يتبع التعليمات90 خطأ API12 تنسيق إضافي8 انتهت المهلة5 لا توجد إجابة3

الفئات

حل الألغاز90 الذكاء العام78 حيل مضادة للذكاء الاصطناعي33 اتباع التعليمات18 البرمجة16 استدعاء الأدوات8 خاص بالمجال1 مجمّع1

86/86

الترتيب	النموذج	الشركة	عدد لم يتبع التعليمات	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#165	Mistral Small 4 none	Mistral	1	3.1	$0.022	0/3	399ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.022 زمن الاستجابة (المتوسط) 399ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/3	532ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 532ms
#201	Granite 4.1 8B none	IBM Granite	1	3.2	$0.007	0/3	608ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 608ms
#169	Qwen3.5-9B none	Qwen	1	3.2	$0.021	0/3	621ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 621ms
#122	Gemini 3.1 Flash Lite none	Google	1	6.3	$0.046	1/3	720ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.046 زمن الاستجابة (المتوسط) 720ms
#156	Gemma 4 26B A4B none	Google	1	6.2	$0.015	1/3	744ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 744ms
#193	Elephant Alpha none	Openrouter	1	4.2	$0.000	0/3	807ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 807ms
#136	GPT-5.4 Mini none	OpenAI	1	5.4	$0.095	1/3	836ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 836ms
#195	Elephant Alpha medium	Openrouter	1	5.3	$0.000	1/3	868ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 868ms
#78	Mercury 2 medium	Inception	1	5.4	$0.093	1/3	949ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.093 زمن الاستجابة (المتوسط) 949ms
#142	Qwen3.5-122B-A10B none	Qwen	1	3.8	$0.247	0/3	1.00s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.247 زمن الاستجابة (المتوسط) 1.00s
#129	Nemotron 3 Ultra none	NVIDIA	1	5.9	$0.095	1/3	1.06s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 1.06s
#161	Qwen3.6 35B A3B none	Qwen	2	3.2	$0.061	0/3	1.07s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.061 زمن الاستجابة (المتوسط) 1.07s
#176	GLM 4.7 Flash none	Z.ai	1	6.4	$0.016	1/3	1.20s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 1.20s
#174	GPT-4o-mini none	OpenAI	1	3.5	$0.010	0/3	1.21s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 1.21s

1 2 3 4 5 6

→

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حل الألغاز: لم يتبع التعليمات

تصفية النماذج

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية