ترتيب خاص بالمجال x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في خاص بالمجال، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

421

النموذج الأكثر تأثرًا

Muse Spark 1.1 3

أسباب الفشل

إجابة خاطئة421 انتهت المهلة43 تنسيق إضافي17 لا توجد إجابة8 خطأ API7 لم يتبع التعليمات1

الفئات

خاص بالمجال421 حيل مضادة للذكاء الاصطناعي293 البرمجة259 حل الألغاز204 معلومات عامة172 مجمّع69 الذكاء العام62 اتباع التعليمات61 تحليل البيانات واستخراجها41 استدعاء الأدوات3

202/202

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#70	Claude Opus 4.8 none	Anthropic	2	5.3	$1.166	1/3	1.70s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $1.166 زمن الاستجابة (المتوسط) 1.70s
#71	Step 3.7 Flash low	Stepfun	2	5.3	$0.454	1/3	43.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.454 زمن الاستجابة (المتوسط) 43.3s
#77	Grok 4.3 medium	X AI	2	5.3	$0.779	1/3	181.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.779 زمن الاستجابة (المتوسط) 181.7s
#80	DeepSeek V3.2 medium	DeepSeek	2	2.9	$0.078	0/3	24.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.078 زمن الاستجابة (المتوسط) 24.3s
#81	Kimi K2.5 medium	Moonshot AI	2	3.5	$0.600	0/3	137.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.600 زمن الاستجابة (المتوسط) 137.3s
#86	DeepSeek V4 Pro none	DeepSeek	2	5.3	$0.096	1/3	3.72s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 3.72s
#90	Step 3.7 Flash high	Stepfun	2	4.1	$1.207	0/3	149.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $1.207 زمن الاستجابة (المتوسط) 149.6s
#94	Qwen3.6 35B A3B medium	Qwen	2	5.3	$0.746	1/3	22.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.746 زمن الاستجابة (المتوسط) 22.5s
#96	LongCat 2.0 low	Meituan	2	3.0	$0.391	0/3	86.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 86.1s
#98	GLM 5V Turbo medium	Z.ai	2	5.3	$0.457	1/3	38.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.457 زمن الاستجابة (المتوسط) 38.1s
#100	Gemma 4 26B A4B medium	Google	2	2.9	$0.089	0/3	23.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.089 زمن الاستجابة (المتوسط) 23.6s
#101	GLM 5.2 none	Z.ai	2	5.3	$0.128	1/3	4.04s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.128 زمن الاستجابة (المتوسط) 4.04s
#106	Hy3 preview medium	Tencent	2	5.3	$0.018	1/3	22.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.018 زمن الاستجابة (المتوسط) 22.3s
#110	Gemini 3.1 Flash Lite Preview low	Google	2	5.3	$0.646	1/3	2.36s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.646 زمن الاستجابة (المتوسط) 2.36s
#111	Gemini 3.1 Flash Lite low	Google	2	5.3	$0.621	1/3	1.52s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.621 زمن الاستجابة (المتوسط) 1.52s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

خاص بالمجال: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية