ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.6

أفضل نموذج

Granite 4.1 8B 3.6

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات19 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

216/216

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#35	GLM 5.2 high	Z.ai	10.0	8.0	$0.817	2/2	4.26s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.817 زمن الاستجابة (المتوسط) 4.26s
#79	Grok 4.20 medium	X AI	9.8	7.1	$0.777	2/2	4.26s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.777 زمن الاستجابة (المتوسط) 4.26s
#119	MiMo-V2-Flash medium	Xiaomi	10.0	6.3	$0.043	2/2	4.28s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.043 زمن الاستجابة (المتوسط) 4.28s
#192	Laguna M.1 medium	Poolside	10.0	4.7	$0.033	2/2	4.30s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.033 زمن الاستجابة (المتوسط) 4.30s
#191	Grok 4.1 Fast medium	X AI	6.5	4.7	$0.069	1/2	4.63s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.069 زمن الاستجابة (المتوسط) 4.63s
#136	Step 3.5 Flash medium	Stepfun	8.3	6.0	$0.108	1/2	4.78s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.108 زمن الاستجابة (المتوسط) 4.78s
#137	Grok 4.20 Beta medium	X AI	9.8	6.0	$0.750	2/2	4.89s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.750 زمن الاستجابة (المتوسط) 4.89s
#140	Mimo V2 Omni medium	Xiaomi	8.3	5.9	$0.683	1/2	4.99s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.683 زمن الاستجابة (المتوسط) 4.99s
#212	gpt-oss-120b none	OpenAI	9.8	3.7	$0.010	2/2	5.06s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 5.06s
#168	Ling-2.6-1T none	Inclusionai	6.4	5.3	$0.016	1/2	5.36s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 5.36s
#53	GLM 5 Turbo medium	Z.ai	10.0	7.6	$0.323	2/2	5.38s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.323 زمن الاستجابة (المتوسط) 5.38s
#56	Kimi K2.7 Code medium	Moonshot AI	9.9	7.5	$0.740	2/2	5.39s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.740 زمن الاستجابة (المتوسط) 5.39s
#27	Muse Spark 1.1 low	Meta	7.3	8.3	$0.647	1/2	5.42s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.647 زمن الاستجابة (المتوسط) 5.42s
#34	GPT-5.2 Chat none	OpenAI	9.8	8.0	$0.604	2/2	5.51s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.604 زمن الاستجابة (المتوسط) 5.51s
#184	Ling-2.6-flash none	Inclusionai	9.8	4.9	$0.002	2/2	5.52s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.002 زمن الاستجابة (المتوسط) 5.52s

←

1 9 10 11 15

→

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)