ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.6

أفضل نموذج

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات19 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

216/216

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#105	Qwen3.6 27B medium	Qwen	10.0	6.5	$0.779	2/2	38.0s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.779 زمن الاستجابة (المتوسط) 38.0s
#106	Hy3 preview medium	Tencent	10.0	6.5	$0.018	2/2	6.16s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.018 زمن الاستجابة (المتوسط) 6.16s
#110	Gemini 3.1 Flash Lite Preview low	Google	10.0	6.5	$0.646	2/2	1.49s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.646 زمن الاستجابة (المتوسط) 1.49s
#111	Gemini 3.1 Flash Lite low	Google	10.0	6.5	$0.621	2/2	1.52s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.621 زمن الاستجابة (المتوسط) 1.52s
#112	Gemini 3.1 Flash Lite Preview none	Google	10.0	6.4	$0.052	2/2	1.13s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.052 زمن الاستجابة (المتوسط) 1.13s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	10.0	6.4	$0.073	2/2	1.67s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 1.67s
#116	Gemma 4 31B medium	Google	10.0	6.3	$0.107	2/2	12.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.107 زمن الاستجابة (المتوسط) 12.8s
#119	MiMo-V2-Flash medium	Xiaomi	10.0	6.3	$0.043	2/2	4.28s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.043 زمن الاستجابة (المتوسط) 4.28s
#120	Qwen3.5-Flash medium	Qwen	10.0	6.2	$0.139	2/2	63.5s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.139 زمن الاستجابة (المتوسط) 63.5s
#122	Seed-2.0-Lite none	Bytedance Seed	10.0	6.2	$0.066	2/2	1.06s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.066 زمن الاستجابة (المتوسط) 1.06s
#124	Gemini 2.5 Flash none	Google	10.0	6.2	$0.017	2/2	590ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 590ms
#125	Qwen3.5-35B-A3B medium	Qwen	10.0	6.2	$0.837	2/2	24.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.837 زمن الاستجابة (المتوسط) 24.4s
#126	Gemini 3.1 Flash Lite minimal	Google	10.0	6.1	$0.047	2/2	932ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.047 زمن الاستجابة (المتوسط) 932ms
#128	Gemini 3.1 Flash Lite none	Google	10.0	6.1	$0.046	2/2	859ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.046 زمن الاستجابة (المتوسط) 859ms
#135	Nemotron 3 Ultra none	NVIDIA	10.0	6.1	$0.095	2/2	1.46s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 1.46s

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)