ترتيب خاص بالمجال x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في خاص بالمجال، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

إجمالي الإخفاقات

412

النموذج الأكثر تأثرًا

LongCat 2.0 1

أسباب الفشل

إجابة خاطئة412 انتهت المهلة43 تنسيق إضافي17 لا توجد إجابة8 خطأ API7 لم يتبع التعليمات1

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

198/198

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#97	LongCat 2.0 high	Meituan	1	3.6	$0.469	0/3	400.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.469 زمن الاستجابة (المتوسط) 400.3s
#60	LongCat 2.0 medium	Meituan	2	2.9	$0.478	0/3	339.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.478 زمن الاستجابة (المتوسط) 339.9s
#12	Grok 4.5 high	X AI	2	3.6	$1.707	0/3	332.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $1.707 زمن الاستجابة (المتوسط) 332.1s
#190	MiniMax M2.5 medium	Minimax	2	2.9	$0.340	0/3	237.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.340 زمن الاستجابة (المتوسط) 237.3s
#128	GPT-5 Nano medium	OpenAI	1	5.2	$0.114	1/3	204.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.114 زمن الاستجابة (المتوسط) 204.0s
#22	Grok 4.5 medium	X AI	3	2.9	$1.928	0/3	198.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $1.928 زمن الاستجابة (المتوسط) 198.9s
#28	Inkling high	Thinkingmachines	1	7.7	$1.006	2/3	186.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.006 زمن الاستجابة (المتوسط) 186.4s
#73	Grok 4.3 medium	X AI	2	5.3	$0.779	1/3	181.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.779 زمن الاستجابة (المتوسط) 181.7s
#194	GLM 4.7 Flash medium	Z.ai	2	3.5	$0.166	0/3	174.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.166 زمن الاستجابة (المتوسط) 174.6s
#130	Step 3.5 Flash medium	Stepfun	2	5.3	$0.108	1/3	170.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.108 زمن الاستجابة (المتوسط) 170.5s
#10	GPT-5.5 medium	OpenAI	2	5.3	$4.137	1/3	164.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $4.137 زمن الاستجابة (المتوسط) 164.1s
#48	Grok Build 0.1 medium	X AI	1	5.3	$1.097	1/3	158.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $1.097 زمن الاستجابة (المتوسط) 158.0s
#46	DeepSeek V4 Pro high	DeepSeek	2	3.6	$0.200	0/3	151.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.200 زمن الاستجابة (المتوسط) 151.5s
#86	Step 3.7 Flash high	Stepfun	2	4.1	$1.207	0/3	149.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $1.207 زمن الاستجابة (المتوسط) 149.6s
#114	Qwen3.5-Flash medium	Qwen	1	5.3	$0.139	1/3	146.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.139 زمن الاستجابة (المتوسط) 146.5s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

خاص بالمجال: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية