ترتيب خاص بالمجال x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في خاص بالمجال، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

421

النموذج الأكثر تأثرًا

Muse Spark 1.1 3

أسباب الفشل

إجابة خاطئة421 انتهت المهلة43 تنسيق إضافي17 لا توجد إجابة8 خطأ API7 لم يتبع التعليمات1

الفئات

خاص بالمجال421 حيل مضادة للذكاء الاصطناعي293 البرمجة259 حل الألغاز204 معلومات عامة172 مجمّع69 الذكاء العام62 اتباع التعليمات61 تحليل البيانات واستخراجها41 استدعاء الأدوات3

202/202

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#170	Inkling none	Thinkingmachines	2	5.3	$0.147	1/3	1.45s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.147 زمن الاستجابة (المتوسط) 1.45s
#171	Mistral Small 4 none	Mistral	2	5.3	$0.022	1/3	367ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.022 زمن الاستجابة (المتوسط) 367ms
#172	Qwen3 Coder Next none	Qwen	2	5.3	$0.025	1/3	962ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 962ms
#176	GLM 5 Turbo none	Z.ai	2	5.3	$0.047	1/3	1.97s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.047 زمن الاستجابة (المتوسط) 1.97s
#179	DeepSeek V3.2 none	DeepSeek	2	2.9	$0.054	0/3	4.17s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.054 زمن الاستجابة (المتوسط) 4.17s
#181	Qwen3.6 Plus Preview medium	Qwen	2	3.0	$0.000	0/3	22.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 22.1s
#185	Ring-2.6-1T none	Inclusionai	2	5.3	$0.026	1/3	73.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.026 زمن الاستجابة (المتوسط) 73.4s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	2.9	$5.599	0/3	24.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $5.599 زمن الاستجابة (المتوسط) 24.7s
#189	Trinity Large Preview none	Arcee AI	2	5.3	$0.008	1/3	877ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 877ms
#192	Laguna M.1 medium	Poolside	2	5.3	$0.033	1/3	24.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.033 زمن الاستجابة (المتوسط) 24.1s
#193	Qwen3 Coder Next medium	Qwen	2	5.3	$0.032	1/3	638ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.032 زمن الاستجابة (المتوسط) 638ms
#195	Mercury 2 none	Inception	2	5.3	$0.030	1/3	534ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.030 زمن الاستجابة (المتوسط) 534ms
#196	MiniMax M2.5 medium	Minimax	2	2.9	$0.340	0/3	237.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.340 زمن الاستجابة (المتوسط) 237.3s
#200	GLM 4.7 Flash medium	Z.ai	2	3.5	$0.166	0/3	174.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.166 زمن الاستجابة (المتوسط) 174.6s
#202	Hunter Alpha none	OpenRouter	2	5.3	$0.000	1/3	2.33s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 2.33s

←

1 9 10 11 14

→

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

خاص بالمجال: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية