ترتيب إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

إجمالي الإخفاقات

1585

النموذج الأكثر تأثرًا

Step 3.5 Flash 4

الفئات

ضمن الفئة خاص بالمجال421 ضمن الفئة حيل مضادة للذكاء الاصطناعي293 ضمن الفئة البرمجة259 ضمن الفئة حل الألغاز204 ضمن الفئة معلومات عامة172 ضمن الفئة مجمّع69 ضمن الفئة الذكاء العام62 ضمن الفئة اتباع التعليمات61 ضمن الفئة تحليل البيانات واستخراجها41 ضمن الفئة استدعاء الأدوات3

215/215

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#89	Qwen3.6 Flash medium	Qwen	8	6.9	$0.738	12/22	44.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.738 زمن الاستجابة (المتوسط) 44.7s
#41	Qwen3.6 Plus medium	Qwen	5	7.8	$0.405	15/22	43.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 7 إجمالي التكلفة $0.405 زمن الاستجابة (المتوسط) 43.1s
#178	MiniMax M2.7 medium	Minimax	6	5.0	$0.163	5/22	41.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 41.3s
#140	Mimo V2 Omni medium	Xiaomi	5	5.9	$0.683	10/21	41.2s
إجمالي الاختبارات 21 الاختبارات الخاطئة 11 إجمالي التكلفة $0.683 زمن الاستجابة (المتوسط) 41.2s
#11	Qwen3.7 Max medium	Qwen	3	9.2	$1.116	18/22	40.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 4 إجمالي التكلفة $1.116 زمن الاستجابة (المتوسط) 40.6s
#194	Cobuddy medium	Baidu	9	4.7	$0.000	7/21	39.9s
إجمالي الاختبارات 21 الاختبارات الخاطئة 14 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 39.9s
#215	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
إجمالي الاختبارات 12 الاختبارات الخاطئة 6 إجمالي التكلفة $0.020 زمن الاستجابة (المتوسط) 39.0s
#13	GPT-5.5 medium	OpenAI	4	9.0	$4.137	18/22	38.4s
إجمالي الاختبارات 22 الاختبارات الخاطئة 4 إجمالي التكلفة $4.137 زمن الاستجابة (المتوسط) 38.4s
#156	DeepSeek V4 Flash none	DeepSeek	12	5.6	$0.042	5/22	36.8s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.042 زمن الاستجابة (المتوسط) 36.8s
#47	Claude Opus 4.6 medium	Anthropic	3	7.7	$3.059	13/22	34.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $3.059 زمن الاستجابة (المتوسط) 34.3s
#88	MiMo-V2.5-Pro medium	Xiaomi	3	6.9	$0.187	12/22	33.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 33.9s
#46	GLM 5 medium	Z.ai	3	7.7	$0.307	15/21	33.5s
إجمالي الاختبارات 21 الاختبارات الخاطئة 6 إجمالي التكلفة $0.307 زمن الاستجابة (المتوسط) 33.5s
#55	Nemotron 3 Ultra medium	NVIDIA	7	7.5	$0.774	13/22	32.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.774 زمن الاستجابة (المتوسط) 32.2s
#107	MiMo-V2.5 medium	Xiaomi	5	6.5	$0.082	12/22	32.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.082 زمن الاستجابة (المتوسط) 32.2s
#30	Muse Spark 1.1 high	Meta	4	8.1	$1.694	12/22	31.5s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $1.694 زمن الاستجابة (المتوسط) 31.5s

إخفاقات إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)