ترتيب خاص بالمجال x انتهت المهلة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور انتهت المهلة في خاص بالمجال، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

GPT-5 Mini 1

أسباب الفشل

إجابة خاطئة412 انتهت المهلة43 تنسيق إضافي17 لا توجد إجابة8 خطأ API7 لم يتبع التعليمات1

الفئات

خاص بالمجال43 البرمجة26 حل الألغاز5 مجمّع5 الذكاء العام4 حيل مضادة للذكاء الاصطناعي4 اتباع التعليمات1 تحليل البيانات واستخراجها1

32/32

الترتيب	النموذج	الشركة	عدد انتهت المهلة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#26	GPT-5 Mini medium	OpenAI	1	3.6	$0.237	0/3	44.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.237 زمن الاستجابة (المتوسط) 44.6s
#31	GLM 5.2 high	Z.ai	1	3.7	$0.970	0/3	74.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.970 زمن الاستجابة (المتوسط) 74.0s
#38	GLM 5.2 medium	Z.ai	1	4.1	$0.222	0/3	45.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.222 زمن الاستجابة (المتوسط) 45.5s
#40	Claude Sonnet 4.6 medium	Anthropic	1	2.9	$2.057	0/3	0ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $2.057 زمن الاستجابة (المتوسط) 0ms
#42	GLM 5 medium	Z.ai	1	3.5	$0.307	0/3	0ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.307 زمن الاستجابة (المتوسط) 0ms
#49	GLM 5 Turbo medium	Z.ai	1	2.9	$0.323	0/3	71.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.323 زمن الاستجابة (المتوسط) 71.1s
#60	LongCat 2.0 medium	Meituan	1	2.9	$0.478	0/3	339.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.478 زمن الاستجابة (المتوسط) 339.9s
#76	DeepSeek V3.2 medium	DeepSeek	1	2.9	$0.078	0/3	24.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.078 زمن الاستجابة (المتوسط) 24.3s
#77	Kimi K2.5 medium	Moonshot AI	1	3.5	$0.600	0/3	137.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.600 زمن الاستجابة (المتوسط) 137.3s
#80	Seed-2.0-Mini medium	Bytedance Seed	3	3.0	$0.101	0/3	0ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.101 زمن الاستجابة (المتوسط) 0ms
#91	LongCat 2.0 low	Meituan	1	3.0	$0.391	0/3	86.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 86.1s
#95	Gemma 4 26B A4B medium	Google	1	2.9	$0.089	0/3	23.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.089 زمن الاستجابة (المتوسط) 23.6s
#97	LongCat 2.0 high	Meituan	2	3.6	$0.469	0/3	400.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.469 زمن الاستجابة (المتوسط) 400.3s
#119	Qwen3.5-35B-A3B medium	Qwen	2	4.1	$0.837	0/3	88.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.837 زمن الاستجابة (المتوسط) 88.3s
#140	Nemotron 3 Super medium	NVIDIA	1	2.9	$0.050	0/3	16.2s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.050 زمن الاستجابة (المتوسط) 16.2s

تصفية النماذج

أفضل النماذج حسب عدد انتهت المهلة

عدد انتهت المهلة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

خاص بالمجال: انتهت المهلة

تصفية النماذج

أفضل النماذج حسب عدد انتهت المهلة

عدد انتهت المهلة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية