ترتيب إخفاقات تنسيق إضافي

اكتشف أي نماذج الذكاء الاصطناعي تواجه تنسيق إضافي أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Kimi K3 1

الفئات

ضمن الفئة حيل مضادة للذكاء الاصطناعي20 ضمن الفئة البرمجة18 ضمن الفئة خاص بالمجال17 ضمن الفئة حل الألغاز8 ضمن الفئة تحليل البيانات واستخراجها6 ضمن الفئة اتباع التعليمات3 ضمن الفئة مجمّع1

42/42

الترتيب	النموذج	الشركة	عدد تنسيق إضافي	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#33	Kimi K3 max	Moonshot AI	1	8.0	$3.112	16/22	122.5s
إجمالي الاختبارات 22 الاختبارات الخاطئة 6 إجمالي التكلفة $3.112 زمن الاستجابة (المتوسط) 122.5s
#41	Claude Opus 4.8 low	Anthropic	1	7.8	$2.077	16/22	12.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 6 إجمالي التكلفة $2.077 زمن الاستجابة (المتوسط) 12.7s
#40	Claude Sonnet 4.6 medium	Anthropic	3	7.8	$2.057	14/22	25.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $2.057 زمن الاستجابة (المتوسط) 25.9s
#48	Grok Build 0.1 medium	X AI	3	7.6	$1.097	14/22	52.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $1.097 زمن الاستجابة (المتوسط) 52.1s
#43	Claude Opus 4.6 medium	Anthropic	5	7.7	$3.059	13/22	34.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $3.059 زمن الاستجابة (المتوسط) 34.3s
#58	Qwen3.5-27B medium	Qwen	1	7.4	$1.627	13/22	111.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $1.627 زمن الاستجابة (المتوسط) 111.9s
#66	Claude Opus 4.8 none	Anthropic	3	7.3	$1.166	13/22	4.91s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $1.166 زمن الاستجابة (المتوسط) 4.91s
#73	Grok 4.3 medium	X AI	1	7.1	$0.779	13/22	47.4s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.779 زمن الاستجابة (المتوسط) 47.4s
#74	GLM 5.1 medium	Z.ai	1	7.1	$0.535	13/22	46.8s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.535 زمن الاستجابة (المتوسط) 46.8s
#109	Mimo V2 PRO medium	Xiaomi	1	6.3	$0.333	12/21	22.2s
إجمالي الاختبارات 21 الاختبارات الخاطئة 9 إجمالي التكلفة $0.333 زمن الاستجابة (المتوسط) 22.2s
#113	MiMo-V2-Flash medium	Xiaomi	1	6.3	$0.043	12/21	20.1s
إجمالي الاختبارات 21 الاختبارات الخاطئة 9 إجمالي التكلفة $0.043 زمن الاستجابة (المتوسط) 20.1s
#47	MiniMax M3 medium	Minimax	1	7.6	$0.286	12/22	75.0s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.286 زمن الاستجابة (المتوسط) 75.0s
#63	Claude Sonnet 4.6 none	Anthropic	4	7.3	$0.661	12/22	8.12s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.661 زمن الاستجابة (المتوسط) 8.12s
#75	Grok 4.20 medium	X AI	1	7.1	$0.777	12/22	29.5s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.777 زمن الاستجابة (المتوسط) 29.5s
#84	MiMo-V2.5-Pro medium	Xiaomi	3	6.9	$0.187	12/22	33.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 33.9s

إخفاقات تنسيق إضافي

تصفية النماذج

أفضل النماذج حسب عدد تنسيق إضافي

عدد تنسيق إضافي مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)