ترتيب خاص بالمجال x تنسيق إضافي

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور تنسيق إضافي في خاص بالمجال، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Claude Sonnet 4.6 1

أسباب الفشل

إجابة خاطئة412 انتهت المهلة43 تنسيق إضافي17 لا توجد إجابة8 خطأ API7 لم يتبع التعليمات1

الفئات

حيل مضادة للذكاء الاصطناعي20 البرمجة18 خاص بالمجال17 حل الألغاز8 تحليل البيانات واستخراجها6 اتباع التعليمات3 مجمّع1

13/13

الترتيب	النموذج	الشركة	عدد تنسيق إضافي	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#40	Claude Sonnet 4.6 medium	Anthropic	1	2.9	$2.057	0/3	0ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $2.057 زمن الاستجابة (المتوسط) 0ms
#43	Claude Opus 4.6 medium	Anthropic	2	3.0	$3.059	0/3	83.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $3.059 زمن الاستجابة (المتوسط) 83.4s
#46	DeepSeek V4 Pro high	DeepSeek	1	3.6	$0.200	0/3	151.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.200 زمن الاستجابة (المتوسط) 151.5s
#134	Mimo V2 Omni medium	Xiaomi	1	3.0	$0.683	0/3	47.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.683 زمن الاستجابة (المتوسط) 47.9s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	2	2.9	$0.077	0/3	7.47s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.077 زمن الاستجابة (المتوسط) 7.47s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	2	2.9	$0.041	0/3	4.99s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 4.99s
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	2.9	$5.599	0/3	24.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $5.599 زمن الاستجابة (المتوسط) 24.7s
#184	Hunter Alpha medium	OpenRouter	1	3.0	$0.000	0/3	10.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 10.5s
#197	Grok 4.20 none	X AI	1	3.0	$0.057	0/3	687ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.057 زمن الاستجابة (المتوسط) 687ms
#48	Grok Build 0.1 medium	X AI	1	5.3	$1.097	1/3	158.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $1.097 زمن الاستجابة (المتوسط) 158.0s
#75	Grok 4.20 medium	X AI	1	5.3	$0.777	1/3	27.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.777 زمن الاستجابة (المتوسط) 27.0s
#84	MiMo-V2.5-Pro medium	Xiaomi	2	5.3	$0.187	1/3	37.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 37.9s
#101	MiMo-V2.5 medium	Xiaomi	1	5.3	$0.082	1/3	34.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.082 زمن الاستجابة (المتوسط) 34.5s

تصفية النماذج

أفضل النماذج حسب عدد تنسيق إضافي

عدد تنسيق إضافي مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

خاص بالمجال: تنسيق إضافي

تصفية النماذج

أفضل النماذج حسب عدد تنسيق إضافي

عدد تنسيق إضافي مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية