ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.6

أفضل نموذج

Gemini 3.6 Flash 9.9

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات19 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

216/216

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#107	MiMo-V2.5 medium	Xiaomi	9.9	6.5	$0.082	2/2	1.80s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.082 زمن الاستجابة (المتوسط) 1.80s
#108	Laguna XS 2.1 medium	Poolside	9.8	6.5	$0.068	2/2	2.57s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.068 زمن الاستجابة (المتوسط) 2.57s
#110	Gemini 3.1 Flash Lite Preview low	Google	10.0	6.5	$0.646	2/2	1.49s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.646 زمن الاستجابة (المتوسط) 1.49s
#111	Gemini 3.1 Flash Lite low	Google	10.0	6.5	$0.621	2/2	1.52s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.621 زمن الاستجابة (المتوسط) 1.52s
#112	Gemini 3.1 Flash Lite Preview none	Google	10.0	6.4	$0.052	2/2	1.13s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.052 زمن الاستجابة (المتوسط) 1.13s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	10.0	6.4	$0.073	2/2	1.67s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 1.67s
#114	Ring-2.6-1T medium	Inclusionai	9.8	6.3	$0.103	2/2	11.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.103 زمن الاستجابة (المتوسط) 11.8s
#115	Mimo V2 PRO medium	Xiaomi	9.9	6.3	$0.333	2/2	3.36s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.333 زمن الاستجابة (المتوسط) 3.36s
#116	Gemma 4 31B medium	Google	10.0	6.3	$0.107	2/2	12.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.107 زمن الاستجابة (المتوسط) 12.8s
#119	MiMo-V2-Flash medium	Xiaomi	10.0	6.3	$0.043	2/2	4.28s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.043 زمن الاستجابة (المتوسط) 4.28s
#120	Qwen3.5-Flash medium	Qwen	10.0	6.2	$0.139	2/2	63.5s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.139 زمن الاستجابة (المتوسط) 63.5s
#122	Seed-2.0-Lite none	Bytedance Seed	10.0	6.2	$0.066	2/2	1.06s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.066 زمن الاستجابة (المتوسط) 1.06s
#124	Gemini 2.5 Flash none	Google	10.0	6.2	$0.017	2/2	590ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 590ms
#125	Qwen3.5-35B-A3B medium	Qwen	10.0	6.2	$0.837	2/2	24.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.837 زمن الاستجابة (المتوسط) 24.4s
#126	Gemini 3.1 Flash Lite minimal	Google	10.0	6.1	$0.047	2/2	932ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.047 زمن الاستجابة (المتوسط) 932ms

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)