ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.6

أفضل نموذج

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات19 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

216/216

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#138	GPT-5.6 Terra none	OpenAI	8.5	6.0	$0.349	1/2	1.15s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.349 زمن الاستجابة (المتوسط) 1.15s
#31	Gemini 3.5 Flash-Lite high	Google	8.5	8.1	$0.584	1/2	1.87s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.584 زمن الاستجابة (المتوسط) 1.87s
#123	GPT-5.6 Luna low	OpenAI	8.5	6.2	$0.249	1/2	2.04s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.249 زمن الاستجابة (المتوسط) 2.04s
#136	Step 3.5 Flash medium	Stepfun	8.3	6.0	$0.108	1/2	4.78s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.108 زمن الاستجابة (المتوسط) 4.78s
#140	Mimo V2 Omni medium	Xiaomi	8.3	5.9	$0.683	1/2	4.99s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.683 زمن الاستجابة (المتوسط) 4.99s
#50	DeepSeek V4 Pro high	DeepSeek	7.8	7.7	$0.200	1/2	8.73s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.200 زمن الاستجابة (المتوسط) 8.73s
#196	MiniMax M2.5 medium	Minimax	7.5	4.6	$0.340	1/2	621ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.340 زمن الاستجابة (المتوسط) 621ms
#149	Gemini 3.1 Flash Lite high	Google	7.3	5.6	$2.044	1/2	23.3s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $2.044 زمن الاستجابة (المتوسط) 23.3s
#173	Mistral Small 4 medium	Mistral	7.3	5.1	$0.096	1/2	1.38s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 1.38s
#27	Muse Spark 1.1 low	Meta	7.3	8.3	$0.647	1/2	5.42s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.647 زمن الاستجابة (المتوسط) 5.42s
#146	Nemotron 3 Super medium	NVIDIA	7.3	5.7	$0.055	1/2	6.97s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.055 زمن الاستجابة (المتوسط) 6.97s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7.3	3.4	$0.000	1/2	1.37s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 1.37s
#165	GPT-5.6 Luna none	OpenAI	7.1	5.4	$0.142	1/2	1.23s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.142 زمن الاستجابة (المتوسط) 1.23s
#19	Muse Spark 1.1 medium	Meta	6.5	8.6	$1.357	1/2	6.31s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $1.357 زمن الاستجابة (المتوسط) 6.31s
#64	LongCat 2.0 medium	Meituan	6.5	7.4	$0.478	1/2	7.38s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.478 زمن الاستجابة (المتوسط) 7.38s

←

1 9 10 11 15

→

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)