ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.6

أفضل نموذج

Laguna XS 2.1 3.8

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات19 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

216/216

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#177	North Mini Code none	Cohere	6.5	5.1	$0.000	1/2	30.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 30.7s
#180	GPT-4o-mini none	OpenAI	6.3	5.0	$0.010	1/2	1.11s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 1.11s
#181	Qwen3.6 Plus Preview medium	Qwen	6.5	4.9	$0.000	1/2	3.40s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 3.40s
#182	GLM 4.7 Flash none	Z.ai	6.5	4.9	$0.016	1/2	888ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 888ms
#183	Nemotron 3 Super none	NVIDIA	6.3	4.9	$0.008	1/2	804ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 804ms
#186	GPT-5.4 Nano none	OpenAI	6.3	4.8	$0.041	1/2	784ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 784ms
#191	Grok 4.1 Fast medium	X AI	6.5	4.7	$0.069	1/2	4.63s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.069 زمن الاستجابة (المتوسط) 4.63s
#193	Qwen3 Coder Next medium	Qwen	6.3	4.7	$0.032	1/2	7.49s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.032 زمن الاستجابة (المتوسط) 7.49s
#195	Mercury 2 none	Inception	6.5	4.6	$0.030	1/2	551ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.030 زمن الاستجابة (المتوسط) 551ms
#196	MiniMax M2.5 medium	Minimax	7.5	4.6	$0.340	1/2	621ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.340 زمن الاستجابة (المتوسط) 621ms
#197	Grok 4.20 Beta none	X AI	6.3	4.4	$0.087	1/2	649ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.087 زمن الاستجابة (المتوسط) 649ms
#198	Laguna M.1 none	Poolside	6.3	4.4	$0.009	1/2	683ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.009 زمن الاستجابة (المتوسط) 683ms
#200	GLM 4.7 Flash medium	Z.ai	6.2	4.3	$0.166	1/2	2.97s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.166 زمن الاستجابة (المتوسط) 2.97s
#202	Hunter Alpha none	OpenRouter	6.4	4.2	$0.000	1/2	2.82s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 2.82s
#203	Grok 4.20 none	X AI	6.3	4.1	$0.057	1/2	445ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.057 زمن الاستجابة (المتوسط) 445ms

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)