ترتيب خاص بالمجال x انتهت المهلة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور انتهت المهلة في خاص بالمجال، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: عدد الإخفاقات ↑.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Claude Opus 4.7 1

أسباب الفشل

إجابة خاطئة412 انتهت المهلة43 تنسيق إضافي17 لا توجد إجابة8 خطأ API7 لم يتبع التعليمات1

الفئات

خاص بالمجال43 البرمجة26 حل الألغاز5 مجمّع5 الذكاء العام4 حيل مضادة للذكاء الاصطناعي4 اتباع التعليمات1 تحليل البيانات واستخراجها1

32/32

الترتيب	النموذج	الشركة	عدد انتهت المهلة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#15	Claude Opus 4.7 medium	Anthropic	1	7.7	$1.477	2/3	1.17s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.477 زمن الاستجابة (المتوسط) 1.17s
#21	GPT-5.2 medium	OpenAI	1	5.9	$0.951	1/3	77.8s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.951 زمن الاستجابة (المتوسط) 77.8s
#26	GPT-5 Mini medium	OpenAI	1	3.6	$0.237	0/3	44.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.237 زمن الاستجابة (المتوسط) 44.6s
#31	GLM 5.2 high	Z.ai	1	3.7	$0.970	0/3	74.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.970 زمن الاستجابة (المتوسط) 74.0s
#38	GLM 5.2 medium	Z.ai	1	4.1	$0.222	0/3	45.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.222 زمن الاستجابة (المتوسط) 45.5s
#40	Claude Sonnet 4.6 medium	Anthropic	1	2.9	$2.057	0/3	0ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $2.057 زمن الاستجابة (المتوسط) 0ms
#42	GLM 5 medium	Z.ai	1	3.5	$0.307	0/3	0ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.307 زمن الاستجابة (المتوسط) 0ms
#49	GLM 5 Turbo medium	Z.ai	1	2.9	$0.323	0/3	71.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.323 زمن الاستجابة (المتوسط) 71.1s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	5.3	$0.437	1/3	17.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.437 زمن الاستجابة (المتوسط) 17.5s
#58	Qwen3.5-27B medium	Qwen	1	5.3	$1.627	1/3	79.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $1.627 زمن الاستجابة (المتوسط) 79.5s
#60	LongCat 2.0 medium	Meituan	1	2.9	$0.478	0/3	339.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.478 زمن الاستجابة (المتوسط) 339.9s
#74	GLM 5.1 medium	Z.ai	1	5.3	$0.535	1/3	29.8s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.535 زمن الاستجابة (المتوسط) 29.8s
#76	DeepSeek V3.2 medium	DeepSeek	1	2.9	$0.078	0/3	24.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.078 زمن الاستجابة (المتوسط) 24.3s
#77	Kimi K2.5 medium	Moonshot AI	1	3.5	$0.600	0/3	137.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.600 زمن الاستجابة (المتوسط) 137.3s
#91	LongCat 2.0 low	Meituan	1	3.0	$0.391	0/3	86.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 86.1s

تصفية النماذج

أفضل النماذج حسب عدد انتهت المهلة

عدد انتهت المهلة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

خاص بالمجال: انتهت المهلة

تصفية النماذج

أفضل النماذج حسب عدد انتهت المهلة

عدد انتهت المهلة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية