ترتيب خاص بالمجال x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في خاص بالمجال، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

إجمالي الإخفاقات

412

النموذج الأكثر تأثرًا

Claude Sonnet 4.6 1

أسباب الفشل

إجابة خاطئة412 انتهت المهلة43 تنسيق إضافي17 لا توجد إجابة8 خطأ API7 لم يتبع التعليمات1

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

198/198

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#40	Claude Sonnet 4.6 medium	Anthropic	1	2.9	$2.057	0/3	0ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $2.057 زمن الاستجابة (المتوسط) 0ms
#42	GLM 5 medium	Z.ai	2	3.5	$0.307	0/3	0ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.307 زمن الاستجابة (المتوسط) 0ms
#210	LFM2-24B-A2B none	Liquid	1	5.9	$0.001	1/3	287ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.001 زمن الاستجابة (المتوسط) 287ms
#201	Granite 4.1 8B none	IBM Granite	3	3.0	$0.007	0/3	357ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 357ms
#160	Laguna XS 2.1 none	Poolside	2	5.3	$0.008	1/3	364ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 364ms
#165	Mistral Small 4 none	Mistral	2	5.3	$0.022	1/3	367ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.022 زمن الاستجابة (المتوسط) 367ms
#205	Laguna Xs.2 none	Poolside	2	5.3	$0.004	1/3	371ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 371ms
#169	Qwen3.5-9B none	Qwen	3	3.0	$0.021	0/3	464ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 464ms
#142	Qwen3.5-122B-A10B none	Qwen	2	5.3	$0.247	1/3	465ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.247 زمن الاستجابة (المتوسط) 465ms
#127	Qwen3.5-35B-A3B none	Qwen	1	7.7	$0.106	2/3	485ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 485ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3	3.6	$0.000	0/3	489ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 489ms
#118	Gemini 2.5 Flash none	Google	2	5.9	$0.017	1/3	495ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 495ms
#189	Mercury 2 none	Inception	2	5.3	$0.030	1/3	534ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.030 زمن الاستجابة (المتوسط) 534ms
#103	Qwen3.5-27B none	Qwen	3	3.0	$0.090	0/3	540ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.090 زمن الاستجابة (المتوسط) 540ms
#200	MiMo-V2-Flash none	Xiaomi	2	5.3	$0.025	1/3	564ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 564ms

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

خاص بالمجال: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية