ترتيب إخفاقات تنسيق إضافي

اكتشف أي نماذج الذكاء الاصطناعي تواجه تنسيق إضافي أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: عدد الإخفاقات ↑.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Kimi K3 1

الفئات

ضمن الفئة حيل مضادة للذكاء الاصطناعي20 ضمن الفئة البرمجة18 ضمن الفئة خاص بالمجال17 ضمن الفئة حل الألغاز8 ضمن الفئة تحليل البيانات واستخراجها6 ضمن الفئة اتباع التعليمات3 ضمن الفئة مجمّع1

42/42

الترتيب	النموذج	الشركة	عدد تنسيق إضافي	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#157	Mimo V2 Omni none	Xiaomi	1	5.5	$0.021	8/21	2.44s
إجمالي الاختبارات 21 الاختبارات الخاطئة 13 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 2.44s
#159	GPT-5.6 Luna none	OpenAI	1	5.4	$0.142	6/22	1.50s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.142 زمن الاستجابة (المتوسط) 1.50s
#164	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.147 زمن الاستجابة (المتوسط) 3.50s
#166	Qwen3 Coder Next none	Qwen	1	5.1	$0.025	5/22	9.12s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 9.12s
#168	MiMo-V2.5 none	Xiaomi	1	5.1	$0.025	5/22	4.62s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 4.62s
#184	Hunter Alpha medium	OpenRouter	1	4.7	$0.000	8/18	10.3s
إجمالي الاختبارات 18 الاختبارات الخاطئة 10 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 10.3s
#197	Grok 4.20 none	X AI	1	4.1	$0.057	6/18	1.11s
إجمالي الاختبارات 18 الاختبارات الخاطئة 12 إجمالي التكلفة $0.057 زمن الاستجابة (المتوسط) 1.11s
#199	Hy3 preview none	Tencent	1	4.0	$0.003	4/21	12.9s
إجمالي الاختبارات 21 الاختبارات الخاطئة 17 إجمالي التكلفة $0.003 زمن الاستجابة (المتوسط) 12.9s
#200	MiMo-V2-Flash none	Xiaomi	1	4.0	$0.025	4/21	2.76s
إجمالي الاختبارات 21 الاختبارات الخاطئة 17 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 2.76s
#201	Granite 4.1 8B none	IBM Granite	1	4.0	$0.007	2/22	1.45s
إجمالي الاختبارات 22 الاختبارات الخاطئة 20 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 1.45s
#204	Qwen3.5-9B medium	Qwen	1	3.8	$0.036	3/22	82.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 19 إجمالي التكلفة $0.036 زمن الاستجابة (المتوسط) 82.2s
#101	MiMo-V2.5 medium	Xiaomi	2	6.5	$0.082	12/22	32.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.082 زمن الاستجابة (المتوسط) 32.2s
#137	North Mini Code medium	Cohere	2	5.9	$0.000	9/22	137.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 13 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 137.1s
#150	DeepSeek V4 Flash none	DeepSeek	2	5.6	$0.044	5/22	36.8s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 36.8s
#171	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 29.9s

إخفاقات تنسيق إضافي

تصفية النماذج

أفضل النماذج حسب عدد تنسيق إضافي

عدد تنسيق إضافي مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)