ترتيب إخفاقات تنسيق إضافي

اكتشف أي نماذج الذكاء الاصطناعي تواجه تنسيق إضافي أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

الفئات

ضمن الفئة حيل مضادة للذكاء الاصطناعي20 ضمن الفئة البرمجة18 ضمن الفئة خاص بالمجال17 ضمن الفئة حل الألغاز8 ضمن الفئة تحليل البيانات واستخراجها6 ضمن الفئة اتباع التعليمات3 ضمن الفئة مجمّع1

42/42

الترتيب	النموذج	الشركة	عدد تنسيق إضافي	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#181	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
إجمالي الاختبارات 18 الاختبارات الخاطئة 10 إجمالي التكلفة $5.599 زمن الاستجابة (المتوسط) 9.69s
#33	Kimi K3 max	Moonshot AI	1	8.0	$3.112	16/22	122.5s
إجمالي الاختبارات 22 الاختبارات الخاطئة 6 إجمالي التكلفة $3.112 زمن الاستجابة (المتوسط) 122.5s
#41	Claude Opus 4.8 low	Anthropic	1	7.8	$2.077	16/22	12.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 6 إجمالي التكلفة $2.077 زمن الاستجابة (المتوسط) 12.7s
#46	DeepSeek V4 Pro high	DeepSeek	1	7.7	$0.200	10/22	79.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.200 زمن الاستجابة (المتوسط) 79.1s
#47	MiniMax M3 medium	Minimax	1	7.6	$0.286	12/22	75.0s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.286 زمن الاستجابة (المتوسط) 75.0s
#58	Qwen3.5-27B medium	Qwen	1	7.4	$1.627	13/22	111.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $1.627 زمن الاستجابة (المتوسط) 111.9s
#73	Grok 4.3 medium	X AI	1	7.1	$0.779	13/22	47.4s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.779 زمن الاستجابة (المتوسط) 47.4s
#74	GLM 5.1 medium	Z.ai	1	7.1	$0.535	13/22	46.8s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.535 زمن الاستجابة (المتوسط) 46.8s
#75	Grok 4.20 medium	X AI	1	7.1	$0.777	12/22	29.5s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.777 زمن الاستجابة (المتوسط) 29.5s
#82	DeepSeek V4 Pro none	DeepSeek	1	6.9	$0.096	10/22	11.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 11.6s
#109	Mimo V2 PRO medium	Xiaomi	1	6.3	$0.333	12/21	22.2s
إجمالي الاختبارات 21 الاختبارات الخاطئة 9 إجمالي التكلفة $0.333 زمن الاستجابة (المتوسط) 22.2s
#111	LongCat 2.0 none	Meituan	1	6.3	$0.044	7/22	5.18s
إجمالي الاختبارات 22 الاختبارات الخاطئة 15 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 5.18s
#113	MiMo-V2-Flash medium	Xiaomi	1	6.3	$0.043	12/21	20.1s
إجمالي الاختبارات 21 الاختبارات الخاطئة 9 إجمالي التكلفة $0.043 زمن الاستجابة (المتوسط) 20.1s
#134	Mimo V2 Omni medium	Xiaomi	1	5.9	$0.683	10/21	41.2s
إجمالي الاختبارات 21 الاختبارات الخاطئة 11 إجمالي التكلفة $0.683 زمن الاستجابة (المتوسط) 41.2s
#148	Owl Alpha none	Openrouter	1	5.6	$0.000	7/21	9.88s
إجمالي الاختبارات 21 الاختبارات الخاطئة 14 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 9.88s

إخفاقات تنسيق إضافي

تصفية النماذج

أفضل النماذج حسب عدد تنسيق إضافي

عدد تنسيق إضافي مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)