ترتيب النماذج لفئة اتباع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في اتباع التعليمات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

متوسط درجة اتباع التعليمات

8.6

أفضل نموذج

Kimi K2.5 10.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة61 مع سبب الفشل لم يتبع التعليمات19 مع سبب الفشل تنسيق إضافي3 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل انتهت المهلة1 مع سبب الفشل خطأ API1

216/216

الترتيب	النموذج	الشركة	درجة اتباع التعليمات	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#78	GLM 5.1 medium	Z.ai	6.4	7.1	$0.535	1/2	7.47s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.535 زمن الاستجابة (المتوسط) 7.47s
#11	Qwen3.7 Max medium	Qwen	10.0	9.2	$1.116	2/2	7.46s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.116 زمن الاستجابة (المتوسط) 7.46s
#64	LongCat 2.0 medium	Meituan	6.5	7.4	$0.478	1/2	7.38s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.478 زمن الاستجابة (المتوسط) 7.38s
#208	Grok Build 0.1 none	X AI	9.8	4.0	$0.547	2/2	7.36s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.547 زمن الاستجابة (المتوسط) 7.36s
#39	Seed-2.0-Lite medium	Bytedance Seed	10.0	7.9	$0.234	2/2	7.26s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.234 زمن الاستجابة (المتوسط) 7.26s
#46	GLM 5 medium	Z.ai	10.0	7.7	$0.307	2/2	7.25s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.307 زمن الاستجابة (المتوسط) 7.25s
#65	Gemini 3 Flash Preview low	Google	9.9	7.4	$0.177	2/2	7.02s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.177 زمن الاستجابة (المتوسط) 7.02s
#32	Inkling high	Thinkingmachines	9.8	8.0	$1.006	2/2	7.00s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.006 زمن الاستجابة (المتوسط) 7.00s
#146	Nemotron 3 Super medium	NVIDIA	7.3	5.7	$0.055	1/2	6.97s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.055 زمن الاستجابة (المتوسط) 6.97s
#102	LongCat 2.0 high	Meituan	6.5	6.6	$0.469	1/2	6.96s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.469 زمن الاستجابة (المتوسط) 6.96s
#96	LongCat 2.0 low	Meituan	6.5	6.7	$0.391	1/2	6.39s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 6.39s
#55	Nemotron 3 Ultra medium	NVIDIA	9.8	7.5	$0.774	2/2	6.35s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.774 زمن الاستجابة (المتوسط) 6.35s
#19	Muse Spark 1.1 medium	Meta	6.5	8.6	$1.357	1/2	6.31s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $1.357 زمن الاستجابة (المتوسط) 6.31s
#15	Grok 4.5 high	X AI	9.8	8.9	$1.707	2/2	6.23s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $1.707 زمن الاستجابة (المتوسط) 6.23s
#36	Inkling medium	Thinkingmachines	9.8	8.0	$0.391	2/2	6.17s
إجمالي الاختبارات 2 الاختبارات الخاطئة 0 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 6.17s

ترتيب اتباع التعليمات

تصفية النماذج

أفضل النماذج حسب درجة اتباع التعليمات

درجة اتباع التعليمات مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)