ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.6

أفضل نموذج

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات19 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

216/216

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#141	Hy3 preview high	Tencent	10.0	5.9	$0.048	2/2	34.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.048 زمن الاستجابة (المتوسط) 34.4s
#147	GLM 5 none	Z.ai	10.0	5.7	$0.041	2/2	1.48s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 1.48s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	10.0	5.6	$0.048	2/2	1.50s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.048 زمن الاستجابة (المتوسط) 1.50s
#159	Hy3 preview low	Tencent	10.0	5.5	$0.015	2/2	16.0s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 16.0s
#179	DeepSeek V3.2 none	DeepSeek	10.0	5.0	$0.054	2/2	1.52s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.054 زمن الاستجابة (المتوسط) 1.52s
#192	Laguna M.1 medium	Poolside	10.0	4.7	$0.033	2/2	4.30s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.033 زمن الاستجابة (المتوسط) 4.30s
#204	Laguna Xs.2 medium	Poolside	10.0	4.1	$0.015	2/2	1.68s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 1.68s
#1	Gemini 3.6 Flash medium	Google	9.9	9.9	$0.831	2/2	2.77s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.831 زمن الاستجابة (المتوسط) 2.77s
#2	Gemini 3.6 Flash high	Google	9.9	9.7	$1.785	2/2	3.94s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.785 زمن الاستجابة (المتوسط) 3.94s
#9	GPT-5.5 low	OpenAI	9.9	9.3	$1.253	2/2	3.74s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.253 زمن الاستجابة (المتوسط) 3.74s
#12	Gemini 3.5 Flash medium	Google	9.9	9.1	$0.642	2/2	2.70s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.642 زمن الاستجابة (المتوسط) 2.70s
#14	Gemini 3.5 Flash low	Google	9.9	8.9	$0.433	2/2	1.86s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.433 زمن الاستجابة (المتوسط) 1.86s
#24	GPT-5.2 medium	OpenAI	9.9	8.4	$0.951	2/2	3.12s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.951 زمن الاستجابة (المتوسط) 3.12s
#26	Claude Sonnet 5 medium	Anthropic	9.9	8.3	$0.922	2/2	3.10s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.922 زمن الاستجابة (المتوسط) 3.10s
#42	GLM 5.2 medium	Z.ai	9.9	7.8	$0.187	2/2	7.90s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 7.90s

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)