ترتيب إخفاقات تنسيق إضافي

اكتشف أي نماذج الذكاء الاصطناعي تواجه تنسيق إضافي أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Grok 4.20 1

الفئات

ضمن الفئة حيل مضادة للذكاء الاصطناعي20 ضمن الفئة البرمجة18 ضمن الفئة خاص بالمجال17 ضمن الفئة حل الألغاز8 ضمن الفئة تحليل البيانات واستخراجها6 ضمن الفئة اتباع التعليمات3 ضمن الفئة مجمّع1

42/42

الترتيب	النموذج	الشركة	عدد تنسيق إضافي	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#197	Grok 4.20 none	X AI	1	4.1	$0.057	6/18	1.11s
إجمالي الاختبارات 18 الاختبارات الخاطئة 12 إجمالي التكلفة $0.057 زمن الاستجابة (المتوسط) 1.11s
#201	Granite 4.1 8B none	IBM Granite	1	4.0	$0.007	2/22	1.45s
إجمالي الاختبارات 22 الاختبارات الخاطئة 20 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 1.45s
#159	GPT-5.6 Luna none	OpenAI	1	5.4	$0.142	6/22	1.50s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.142 زمن الاستجابة (المتوسط) 1.50s
#157	Mimo V2 Omni none	Xiaomi	1	5.5	$0.021	8/21	2.44s
إجمالي الاختبارات 21 الاختبارات الخاطئة 13 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 2.44s
#200	MiMo-V2-Flash none	Xiaomi	1	4.0	$0.025	4/21	2.76s
إجمالي الاختبارات 21 الاختبارات الخاطئة 17 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 2.76s
#164	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.147 زمن الاستجابة (المتوسط) 3.50s
#168	MiMo-V2.5 none	Xiaomi	1	5.1	$0.025	5/22	4.62s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 4.62s
#66	Claude Opus 4.8 none	Anthropic	3	7.3	$1.166	13/22	4.91s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $1.166 زمن الاستجابة (المتوسط) 4.91s
#111	LongCat 2.0 none	Meituan	1	6.3	$0.044	7/22	5.18s
إجمالي الاختبارات 22 الاختبارات الخاطئة 15 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 5.18s
#112	Claude Sonnet 5 none	Anthropic	4	6.3	$0.548	8/22	6.04s
إجمالي الاختبارات 22 الاختبارات الخاطئة 14 إجمالي التكلفة $0.548 زمن الاستجابة (المتوسط) 6.04s
#63	Claude Sonnet 4.6 none	Anthropic	4	7.3	$0.661	12/22	8.12s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.661 زمن الاستجابة (المتوسط) 8.12s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.6	$0.048	8/22	8.42s
إجمالي الاختبارات 22 الاختبارات الخاطئة 14 إجمالي التكلفة $0.048 زمن الاستجابة (المتوسط) 8.42s
#166	Qwen3 Coder Next none	Qwen	1	5.1	$0.025	5/22	9.12s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 9.12s
#181	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
إجمالي الاختبارات 18 الاختبارات الخاطئة 10 إجمالي التكلفة $5.599 زمن الاستجابة (المتوسط) 9.69s
#148	Owl Alpha none	Openrouter	1	5.6	$0.000	7/21	9.88s
إجمالي الاختبارات 21 الاختبارات الخاطئة 14 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 9.88s

إخفاقات تنسيق إضافي

تصفية النماذج

أفضل النماذج حسب عدد تنسيق إضافي

عدد تنسيق إضافي مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)