ترتيب خاص بالمجال x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في خاص بالمجال، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

421

النموذج الأكثر تأثرًا

Muse Spark 1.1 3

أسباب الفشل

إجابة خاطئة421 انتهت المهلة43 تنسيق إضافي17 لا توجد إجابة8 خطأ API7 لم يتبع التعليمات1

الفئات

خاص بالمجال421 حيل مضادة للذكاء الاصطناعي293 البرمجة259 حل الألغاز204 معلومات عامة172 مجمّع69 الذكاء العام62 اتباع التعليمات61 تحليل البيانات واستخراجها41 استدعاء الأدوات3

202/202

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#203	Grok 4.20 none	X AI	2	3.0	$0.057	0/3	687ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.057 زمن الاستجابة (المتوسط) 687ms
#204	Laguna Xs.2 medium	Poolside	2	4.1	$0.015	0/3	11.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 11.1s
#205	Hy3 preview none	Tencent	2	3.6	$0.003	0/3	17.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.003 زمن الاستجابة (المتوسط) 17.6s
#206	MiMo-V2-Flash none	Xiaomi	2	5.3	$0.025	1/3	564ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 564ms
#208	Grok Build 0.1 none	X AI	2	3.6	$0.547	0/3	103.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.547 زمن الاستجابة (المتوسط) 103.7s
#209	Grok 4.1 Fast none	X AI	2	5.9	$0.008	1/3	1.06s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 1.06s
#211	Laguna Xs.2 none	Poolside	2	5.3	$0.004	1/3	371ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 371ms
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	2	2.9	$0.000	0/3	56.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 56.7s
#1	Gemini 3.6 Flash medium	Google	1	8.2	$0.831	2/3	12.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.831 زمن الاستجابة (المتوسط) 12.6s
#4	Gemini 3.5 Flash high	Google	1	7.6	$1.976	2/3	14.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.976 زمن الاستجابة (المتوسط) 14.1s
#10	Gemini 3.1 Pro Preview medium	Google	1	7.7	$1.361	2/3	32.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.361 زمن الاستجابة (المتوسط) 32.7s
#12	Gemini 3.5 Flash medium	Google	1	7.7	$0.642	2/3	5.24s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.642 زمن الاستجابة (المتوسط) 5.24s
#14	Gemini 3.5 Flash low	Google	1	7.7	$0.433	2/3	3.39s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.433 زمن الاستجابة (المتوسط) 3.39s
#24	GPT-5.2 medium	OpenAI	1	5.9	$0.951	1/3	77.8s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.951 زمن الاستجابة (المتوسط) 77.8s
#26	Claude Sonnet 5 medium	Anthropic	1	7.7	$0.922	2/3	20.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.922 زمن الاستجابة (المتوسط) 20.4s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

خاص بالمجال: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية