ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.6

أفضل نموذج

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات19 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

216/216

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#104	Gemini 3.5 Flash-Lite medium	Google	9.8	6.5	$0.369	2/2	1.59s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.369 زمن الاستجابة (المتوسط) 1.59s
#108	Laguna XS 2.1 medium	Poolside	9.8	6.5	$0.068	2/2	2.57s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.068 زمن الاستجابة (المتوسط) 2.57s
#114	Ring-2.6-1T medium	Inclusionai	9.8	6.3	$0.103	2/2	11.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.103 زمن الاستجابة (المتوسط) 11.8s
#129	Inkling low	Thinkingmachines	9.8	6.1	$0.187	2/2	1.81s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 1.81s
#134	GPT-5 Nano medium	OpenAI	9.8	6.1	$0.114	2/2	15.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.114 زمن الاستجابة (المتوسط) 15.6s
#137	Grok 4.20 Beta medium	X AI	9.8	6.0	$0.750	2/2	4.89s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.750 زمن الاستجابة (المتوسط) 4.89s
#139	Gemini 3 PRO Preview medium	Google	9.8	6.0	$0.385	2/2	3.26s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.385 زمن الاستجابة (المتوسط) 3.26s
#143	North Mini Code medium	Cohere	9.8	5.9	$0.000	2/2	15.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 15.4s
#157	GLM 5.1 none	Z.ai	9.8	5.5	$0.164	2/2	1.98s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.164 زمن الاستجابة (المتوسط) 1.98s
#169	Gemini 3.1 Flash Lite Preview high	Google	9.8	5.3	$2.310	2/2	64.0s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $2.310 زمن الاستجابة (المتوسط) 64.0s
#185	Ring-2.6-1T none	Inclusionai	9.8	4.8	$0.026	2/2	27.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.026 زمن الاستجابة (المتوسط) 27.4s
#187	Grok 4.20 Multi Agent Beta medium	X AI	9.8	4.8	$5.599	2/2	3.52s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $5.599 زمن الاستجابة (المتوسط) 3.52s
#208	Grok Build 0.1 none	X AI	9.8	4.0	$0.547	2/2	7.36s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.547 زمن الاستجابة (المتوسط) 7.36s
#212	gpt-oss-120b none	OpenAI	9.8	3.7	$0.010	2/2	5.06s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 5.06s
#87	GPT-5.6 Sol none	OpenAI	8.5	6.9	$0.524	1/2	1.33s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.524 زمن الاستجابة (المتوسط) 1.33s

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)