ترتيب إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

إجمالي الإخفاقات

1585

النموذج الأكثر تأثرًا

Gemini 3.6 Flash 1

الفئات

ضمن الفئة خاص بالمجال421 ضمن الفئة حيل مضادة للذكاء الاصطناعي293 ضمن الفئة البرمجة259 ضمن الفئة حل الألغاز204 ضمن الفئة معلومات عامة172 ضمن الفئة مجمّع69 ضمن الفئة الذكاء العام62 ضمن الفئة اتباع التعليمات61 ضمن الفئة تحليل البيانات واستخراجها41 ضمن الفئة استدعاء الأدوات3

215/215

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#89	Qwen3.6 Flash medium	Qwen	8	6.9	$0.738	12/22	44.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.738 زمن الاستجابة (المتوسط) 44.7s
#95	Gemini 3.5 Flash-Lite low	Google	9	6.7	$0.145	12/22	2.25s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.145 زمن الاستجابة (المتوسط) 2.25s
#101	GLM 5.2 none	Z.ai	8	6.6	$0.128	12/22	9.34s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.128 زمن الاستجابة (المتوسط) 9.34s
#103	Qwen3.6 Max Preview none	Qwen	10	6.6	$0.231	12/22	7.82s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.231 زمن الاستجابة (المتوسط) 7.82s
#104	Gemini 3.5 Flash-Lite medium	Google	9	6.5	$0.369	12/22	6.01s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.369 زمن الاستجابة (المتوسط) 6.01s
#107	MiMo-V2.5 medium	Xiaomi	5	6.5	$0.082	12/22	32.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.082 زمن الاستجابة (المتوسط) 32.2s
#111	Gemini 3.1 Flash Lite low	Google	9	6.5	$0.621	12/22	16.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.621 زمن الاستجابة (المتوسط) 16.3s
#112	Gemini 3.1 Flash Lite Preview none	Google	7	6.4	$0.052	12/22	1.58s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.052 زمن الاستجابة (المتوسط) 1.58s
#120	Qwen3.5-Flash medium	Qwen	4	6.2	$0.139	12/22	84.8s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.139 زمن الاستجابة (المتوسط) 84.8s
#98	GLM 5V Turbo medium	Z.ai	7	6.7	$0.457	11/21	23.1s
إجمالي الاختبارات 21 الاختبارات الخاطئة 10 إجمالي التكلفة $0.457 زمن الاستجابة (المتوسط) 23.1s
#136	Step 3.5 Flash medium	Stepfun	4	6.0	$0.108	11/21	174.2s
إجمالي الاختبارات 21 الاختبارات الخاطئة 10 إجمالي التكلفة $0.108 زمن الاستجابة (المتوسط) 174.2s
#141	Hy3 preview high	Tencent	3	5.9	$0.048	11/21	56.6s
إجمالي الاختبارات 21 الاختبارات الخاطئة 10 إجمالي التكلفة $0.048 زمن الاستجابة (المتوسط) 56.6s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10	7.4	$0.387	11/22	19.5s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.387 زمن الاستجابة (المتوسط) 19.5s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	10	7.2	$0.482	11/22	20.8s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.482 زمن الاستجابة (المتوسط) 20.8s
#75	Qwen3.7 Plus none	Qwen	10	7.2	$0.106	11/22	12.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 12.1s

إخفاقات إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)