ترتيب خاص بالمجال x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في خاص بالمجال، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

421

النموذج الأكثر تأثرًا

Muse Spark 1.1 3

أسباب الفشل

إجابة خاطئة421 انتهت المهلة43 تنسيق إضافي17 لا توجد إجابة8 خطأ API7 لم يتبع التعليمات1

الفئات

خاص بالمجال421 حيل مضادة للذكاء الاصطناعي293 البرمجة259 حل الألغاز204 معلومات عامة172 مجمّع69 الذكاء العام62 اتباع التعليمات61 تحليل البيانات واستخراجها41 استدعاء الأدوات3

202/202

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#144	Kimi K2.6 none	Moonshot AI	2	5.3	$0.184	1/3	1.48s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.184 زمن الاستجابة (المتوسط) 1.48s
#145	GPT-5.4 none	OpenAI	2	5.3	$0.397	1/3	1.07s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.397 زمن الاستجابة (المتوسط) 1.07s
#146	Nemotron 3 Super medium	NVIDIA	2	2.9	$0.055	0/3	16.2s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.055 زمن الاستجابة (المتوسط) 16.2s
#148	Qwen3.5-122B-A10B none	Qwen	2	5.3	$0.247	1/3	465ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.247 زمن الاستجابة (المتوسط) 465ms
#151	GLM 5V Turbo none	Z.ai	2	5.3	$0.052	1/3	2.09s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.052 زمن الاستجابة (المتوسط) 2.09s
#152	Owl Alpha medium	Openrouter	2	5.3	$0.000	1/3	8.58s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 8.58s
#153	Mimo V2 PRO none	Xiaomi	2	5.3	$0.045	1/3	1.78s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.045 زمن الاستجابة (المتوسط) 1.78s
#154	Owl Alpha none	Openrouter	2	5.3	$0.000	1/3	3.00s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 3.00s
#156	DeepSeek V4 Flash none	DeepSeek	2	5.3	$0.042	1/3	19.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.042 زمن الاستجابة (المتوسط) 19.7s
#159	Hy3 preview low	Tencent	2	5.9	$0.015	1/3	40.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 40.4s
#160	MiMo-V2.5-Pro none	Xiaomi	2	5.3	$0.068	1/3	877ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.068 زمن الاستجابة (المتوسط) 877ms
#161	Kimi K2.5 none	Moonshot AI	2	5.3	$0.127	1/3	4.38s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.127 زمن الاستجابة (المتوسط) 4.38s
#163	Mimo V2 Omni none	Xiaomi	2	5.3	$0.021	1/3	2.10s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 2.10s
#166	Laguna XS 2.1 none	Poolside	2	5.3	$0.008	1/3	364ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 364ms
#169	Gemini 3.1 Flash Lite Preview high	Google	2	5.3	$2.310	1/3	127.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $2.310 زمن الاستجابة (المتوسط) 127.6s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

خاص بالمجال: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية