ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.5

أفضل نموذج

Granite 4.1 8B 3.6

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات18 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

210/210

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#136	GPT-5.4 Mini none	OpenAI	6.3	5.9	$0.095	1/2	728ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 728ms
#168	MiMo-V2.5 none	Xiaomi	6.5	5.1	$0.025	1/2	751ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 751ms
#210	LFM2-24B-A2B none	Liquid	6.3	2.2	$0.001	1/2	752ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.001 زمن الاستجابة (المتوسط) 752ms
#180	GPT-5.4 Nano none	OpenAI	6.3	4.8	$0.041	1/2	784ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 784ms
#177	Nemotron 3 Super none	NVIDIA	6.3	4.9	$0.008	1/2	804ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 804ms
#127	Qwen3.5-35B-A3B none	Qwen	6.3	6.1	$0.106	1/2	809ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 809ms
#183	Trinity Large Preview none	Arcee AI	3.5	4.8	$0.008	0/2	822ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 822ms
#200	MiMo-V2-Flash none	Xiaomi	6.5	4.0	$0.025	1/2	857ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 857ms
#122	Gemini 3.1 Flash Lite none	Google	10.0	6.1	$0.046	2/2	859ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.046 زمن الاستجابة (المتوسط) 859ms
#176	GLM 4.7 Flash none	Z.ai	6.5	4.9	$0.016	1/2	888ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 888ms
#88	Gemini 3.5 Flash minimal	Google	6.4	6.8	$0.300	1/2	893ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.300 زمن الاستجابة (المتوسط) 893ms
#71	Qwen3.7 Plus none	Qwen	6.3	7.2	$0.106	1/2	929ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 929ms
#120	Gemini 3.1 Flash Lite minimal	Google	10.0	6.1	$0.047	2/2	932ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.047 زمن الاستجابة (المتوسط) 932ms
#59	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	2/2	943ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.197 زمن الاستجابة (المتوسط) 943ms
#195	Elephant Alpha medium	Openrouter	9.8	4.3	$0.000	2/2	987ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 987ms

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)