ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.6

أفضل نموذج

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات19 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

216/216

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#48	GPT-5.6 Luna high	OpenAI	9.9	7.7	$1.017	2/2	1.79s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.017 زمن الاستجابة (المتوسط) 1.79s
#54	GPT-5.6 Luna medium	OpenAI	9.9	7.6	$0.352	2/2	2.38s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.352 زمن الاستجابة (المتوسط) 2.38s
#56	Kimi K2.7 Code medium	Moonshot AI	9.9	7.5	$0.740	2/2	5.39s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.740 زمن الاستجابة (المتوسط) 5.39s
#65	Gemini 3 Flash Preview low	Google	9.9	7.4	$0.177	2/2	7.02s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.177 زمن الاستجابة (المتوسط) 7.02s
#69	Gemini 3.1 Flash Lite medium	Google	9.9	7.3	$0.117	2/2	2.59s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.117 زمن الاستجابة (المتوسط) 2.59s
#70	Claude Opus 4.8 none	Anthropic	9.9	7.3	$1.166	2/2	1.37s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.166 زمن الاستجابة (المتوسط) 1.37s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	9.9	7.2	$0.482	2/2	2.67s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.482 زمن الاستجابة (المتوسط) 2.67s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9.9	6.9	$0.467	2/2	2.58s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.467 زمن الاستجابة (المتوسط) 2.58s
#88	MiMo-V2.5-Pro medium	Xiaomi	9.9	6.9	$0.187	2/2	2.77s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 2.77s
#98	GLM 5V Turbo medium	Z.ai	9.9	6.7	$0.457	2/2	3.74s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.457 زمن الاستجابة (المتوسط) 3.74s
#107	MiMo-V2.5 medium	Xiaomi	9.9	6.5	$0.082	2/2	1.80s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.082 زمن الاستجابة (المتوسط) 1.80s
#115	Mimo V2 PRO medium	Xiaomi	9.9	6.3	$0.333	2/2	3.36s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.333 زمن الاستجابة (المتوسط) 3.36s
#127	gpt-oss-120b medium	OpenAI	9.9	6.1	$0.019	2/2	7.63s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.019 زمن الاستجابة (المتوسط) 7.63s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	9.9	4.8	$0.067	2/2	1.75s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.067 زمن الاستجابة (المتوسط) 1.75s
#190	Hunter Alpha medium	OpenRouter	9.9	4.7	$0.000	2/2	4.18s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 4.18s

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)