ترتيب خاص بالمجال x انتهت المهلة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور انتهت المهلة في خاص بالمجال، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Kimi K3 2

أسباب الفشل

إجابة خاطئة412 انتهت المهلة43 تنسيق إضافي17 لا توجد إجابة8 خطأ API7 لم يتبع التعليمات1

الفئات

خاص بالمجال43 البرمجة26 حل الألغاز5 مجمّع5 الذكاء العام4 حيل مضادة للذكاء الاصطناعي4 اتباع التعليمات1 تحليل البيانات واستخراجها1

32/32

الترتيب	النموذج	الشركة	عدد انتهت المهلة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#33	Kimi K3 max	Moonshot AI	2	5.9	$3.112	1/3	490.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $3.112 زمن الاستجابة (المتوسط) 490.1s
#97	LongCat 2.0 high	Meituan	2	3.6	$0.469	0/3	400.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.469 زمن الاستجابة (المتوسط) 400.3s
#60	LongCat 2.0 medium	Meituan	1	2.9	$0.478	0/3	339.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.478 زمن الاستجابة (المتوسط) 339.9s
#190	MiniMax M2.5 medium	Minimax	1	2.9	$0.340	0/3	237.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.340 زمن الاستجابة (المتوسط) 237.3s
#47	MiniMax M3 medium	Minimax	2	5.5	$0.286	1/3	233.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.286 زمن الاستجابة (المتوسط) 233.1s
#52	Kimi K2.7 Code medium	Moonshot AI	2	5.5	$0.751	1/3	213.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.751 زمن الاستجابة (المتوسط) 213.3s
#128	GPT-5 Nano medium	OpenAI	1	5.2	$0.114	1/3	204.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.114 زمن الاستجابة (المتوسط) 204.0s
#68	Kimi K2.6 medium	Moonshot AI	2	5.3	$1.036	1/3	202.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $1.036 زمن الاستجابة (المتوسط) 202.4s
#114	Qwen3.5-Flash medium	Qwen	1	5.3	$0.139	1/3	146.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.139 زمن الاستجابة (المتوسط) 146.5s
#204	Qwen3.5-9B medium	Qwen	3	3.6	$0.036	0/3	137.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.036 زمن الاستجابة (المتوسط) 137.7s
#77	Kimi K2.5 medium	Moonshot AI	1	3.5	$0.600	0/3	137.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.600 زمن الاستجابة (المتوسط) 137.3s
#185	Grok 4.1 Fast medium	X AI	1	5.8	$0.069	1/3	121.8s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.069 زمن الاستجابة (المتوسط) 121.8s
#119	Qwen3.5-35B-A3B medium	Qwen	2	4.1	$0.837	0/3	88.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.837 زمن الاستجابة (المتوسط) 88.3s
#91	LongCat 2.0 low	Meituan	1	3.0	$0.391	0/3	86.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 86.1s
#58	Qwen3.5-27B medium	Qwen	1	5.3	$1.627	1/3	79.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $1.627 زمن الاستجابة (المتوسط) 79.5s

تصفية النماذج

أفضل النماذج حسب عدد انتهت المهلة

عدد انتهت المهلة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

خاص بالمجال: انتهت المهلة

تصفية النماذج

أفضل النماذج حسب عدد انتهت المهلة

عدد انتهت المهلة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية