ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.6

أفضل نموذج

Gemini 3.6 Flash 9.9

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات19 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

216/216

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#169	Gemini 3.1 Flash Lite Preview high	Google	9.8	5.3	$2.310	2/2	64.0s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $2.310 زمن الاستجابة (المتوسط) 64.0s
#179	DeepSeek V3.2 none	DeepSeek	10.0	5.0	$0.054	2/2	1.52s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.054 زمن الاستجابة (المتوسط) 1.52s
#184	Ling-2.6-flash none	Inclusionai	9.8	4.9	$0.002	2/2	5.52s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.002 زمن الاستجابة (المتوسط) 5.52s
#185	Ring-2.6-1T none	Inclusionai	9.8	4.8	$0.026	2/2	27.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.026 زمن الاستجابة (المتوسط) 27.4s
#187	Grok 4.20 Multi Agent Beta medium	X AI	9.8	4.8	$5.599	2/2	3.52s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $5.599 زمن الاستجابة (المتوسط) 3.52s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	9.9	4.8	$0.067	2/2	1.75s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.067 زمن الاستجابة (المتوسط) 1.75s
#190	Hunter Alpha medium	OpenRouter	9.9	4.7	$0.000	2/2	4.18s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 4.18s
#192	Laguna M.1 medium	Poolside	10.0	4.7	$0.033	2/2	4.30s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.033 زمن الاستجابة (المتوسط) 4.30s
#194	Cobuddy medium	Baidu	9.8	4.7	$0.000	2/2	11.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 11.6s
#199	Elephant Alpha none	Openrouter	9.8	4.3	$0.000	2/2	1.03s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 1.03s
#201	Elephant Alpha medium	Openrouter	9.8	4.3	$0.000	2/2	987ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 987ms
#204	Laguna Xs.2 medium	Poolside	10.0	4.1	$0.015	2/2	1.68s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 1.68s
#208	Grok Build 0.1 none	X AI	9.8	4.0	$0.547	2/2	7.36s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.547 زمن الاستجابة (المتوسط) 7.36s
#212	gpt-oss-120b none	OpenAI	9.8	3.7	$0.010	2/2	5.06s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 5.06s
#215	Step 3.5 Flash none	Stepfun	5.0	2.3	$0.020	1/1	9.30s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.020 زمن الاستجابة (المتوسط) 9.30s

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)