ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.5

أفضل نموذج

Granite 4.1 8B 3.6

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات18 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

210/210

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#201	Granite 4.1 8B none	IBM Granite	3.6	4.0	$0.007	0/2	344ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 344ms
#160	Laguna XS 2.1 none	Poolside	3.8	5.3	$0.008	0/2	364ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 364ms
#165	Mistral Small 4 none	Mistral	6.5	5.1	$0.022	1/2	380ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.022 زمن الاستجابة (المتوسط) 380ms
#205	Laguna Xs.2 none	Poolside	6.5	3.8	$0.004	1/2	439ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 439ms
#197	Grok 4.20 none	X AI	6.3	4.1	$0.057	1/2	445ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.057 زمن الاستجابة (المتوسط) 445ms
#142	Qwen3.5-122B-A10B none	Qwen	6.3	5.7	$0.247	1/2	513ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.247 زمن الاستجابة (المتوسط) 513ms
#169	Qwen3.5-9B none	Qwen	6.5	5.1	$0.021	1/2	514ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 514ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	4.8	3.2	$0.000	0/2	541ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 541ms
#189	Mercury 2 none	Inception	6.5	4.6	$0.030	1/2	551ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.030 زمن الاستجابة (المتوسط) 551ms
#118	Gemini 2.5 Flash none	Google	10.0	6.2	$0.017	2/2	590ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 590ms
#190	MiniMax M2.5 medium	Minimax	7.5	4.6	$0.340	1/2	621ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.340 زمن الاستجابة (المتوسط) 621ms
#191	Grok 4.20 Beta none	X AI	6.3	4.4	$0.087	1/2	649ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.087 زمن الاستجابة (المتوسط) 649ms
#192	Laguna M.1 none	Poolside	6.3	4.4	$0.009	1/2	683ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.009 زمن الاستجابة (المتوسط) 683ms
#203	Grok 4.1 Fast none	X AI	3.0	3.8	$0.008	0/2	685ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 685ms
#156	Gemma 4 26B A4B none	Google	6.3	5.5	$0.015	1/2	690ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 690ms

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)