ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: المقياس ↑.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.5

أفضل نموذج

Grok 4.1 Fast 3.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات18 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

210/210

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#192	Laguna M.1 none	Poolside	6.3	4.4	$0.009	1/2	683ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.009 زمن الاستجابة (المتوسط) 683ms
#199	Hy3 preview none	Tencent	6.3	4.0	$0.003	1/2	13.0s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.003 زمن الاستجابة (المتوسط) 13.0s
#112	Claude Sonnet 5 none	Anthropic	6.4	6.3	$0.548	1/2	2.58s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.548 زمن الاستجابة (المتوسط) 2.58s
#148	Owl Alpha none	Openrouter	6.4	5.6	$0.000	1/2	2.63s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 2.63s
#154	MiMo-V2.5-Pro none	Xiaomi	6.4	5.5	$0.068	1/2	1.03s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.068 زمن الاستجابة (المتوسط) 1.03s
#162	Ling-2.6-1T none	Inclusionai	6.4	5.3	$0.016	1/2	5.36s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 5.36s
#196	Hunter Alpha none	OpenRouter	6.4	4.2	$0.000	1/2	2.82s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 2.82s
#27	Muse Spark 1.1 high	Meta	6.4	8.1	$1.694	1/2	7.81s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $1.694 زمن الاستجابة (المتوسط) 7.81s
#74	GLM 5.1 medium	Z.ai	6.4	7.1	$0.535	1/2	7.47s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.535 زمن الاستجابة (المتوسط) 7.47s
#88	Gemini 3.5 Flash minimal	Google	6.4	6.8	$0.300	1/2	893ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.300 زمن الاستجابة (المتوسط) 893ms
#89	Gemini 3 Flash Preview none	Google	6.4	6.8	$0.085	1/2	1.58s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.085 زمن الاستجابة (المتوسط) 1.58s
#16	Muse Spark 1.1 medium	Meta	6.5	8.6	$1.357	1/2	6.31s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $1.357 زمن الاستجابة (المتوسط) 6.31s
#60	LongCat 2.0 medium	Meituan	6.5	7.4	$0.478	1/2	7.38s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.478 زمن الاستجابة (المتوسط) 7.38s
#63	Claude Sonnet 4.6 none	Anthropic	6.5	7.3	$0.661	1/2	1.96s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.661 زمن الاستجابة (المتوسط) 1.96s
#91	LongCat 2.0 low	Meituan	6.5	6.7	$0.391	1/2	6.39s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 6.39s

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)