ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.6

أفضل نموذج

Granite 4.1 8B 3.6

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات19 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

216/216

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#18	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	2/2	1.57s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.477 زمن الاستجابة (المتوسط) 1.57s
#93	Gemini 3 Flash Preview none	Google	6.4	6.8	$0.085	1/2	1.58s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.085 زمن الاستجابة (المتوسط) 1.58s
#71	Step 3.7 Flash low	Stepfun	9.8	7.3	$0.454	2/2	1.58s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.454 زمن الاستجابة (المتوسط) 1.58s
#104	Gemini 3.5 Flash-Lite medium	Google	9.8	6.5	$0.369	2/2	1.59s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.369 زمن الاستجابة (المتوسط) 1.59s
#144	Kimi K2.6 none	Moonshot AI	6.5	5.8	$0.184	1/2	1.64s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.184 زمن الاستجابة (المتوسط) 1.64s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	9.8	5.4	$0.041	2/2	1.64s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 1.64s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	10.0	6.4	$0.073	2/2	1.67s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 1.67s
#204	Laguna Xs.2 medium	Poolside	10.0	4.1	$0.015	2/2	1.68s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 1.68s
#170	Inkling none	Thinkingmachines	6.3	5.2	$0.147	1/2	1.72s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.147 زمن الاستجابة (المتوسط) 1.72s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	9.9	4.8	$0.067	2/2	1.75s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.067 زمن الاستجابة (المتوسط) 1.75s
#48	GPT-5.6 Luna high	OpenAI	9.9	7.7	$1.017	2/2	1.79s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.017 زمن الاستجابة (المتوسط) 1.79s
#107	MiMo-V2.5 medium	Xiaomi	9.9	6.5	$0.082	2/2	1.80s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.082 زمن الاستجابة (المتوسط) 1.80s
#129	Inkling low	Thinkingmachines	9.8	6.1	$0.187	2/2	1.81s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 1.81s
#33	Step 3.7 Flash medium	Stepfun	9.8	8.0	$0.515	2/2	1.83s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.515 زمن الاستجابة (المتوسط) 1.83s
#167	Qwen3.6 35B A3B none	Qwen	6.2	5.3	$0.061	1/2	1.86s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.061 زمن الاستجابة (المتوسط) 1.86s

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)