ترتيب إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

إجمالي الإخفاقات

1585

النموذج الأكثر تأثرًا

Granite 4.1 8B 13

الفئات

ضمن الفئة خاص بالمجال421 ضمن الفئة حيل مضادة للذكاء الاصطناعي293 ضمن الفئة البرمجة259 ضمن الفئة حل الألغاز204 ضمن الفئة معلومات عامة172 ضمن الفئة مجمّع69 ضمن الفئة الذكاء العام62 ضمن الفئة اتباع التعليمات61 ضمن الفئة تحليل البيانات واستخراجها41 ضمن الفئة استدعاء الأدوات3

215/215

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	12	6.4	$0.073	10/22	9.85s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 9.85s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 5.34s
#123	GPT-5.6 Luna low	OpenAI	10	6.2	$0.249	10/22	5.04s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.249 زمن الاستجابة (المتوسط) 5.04s
#126	Gemini 3.1 Flash Lite minimal	Google	8	6.1	$0.047	10/22	1.86s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.047 زمن الاستجابة (المتوسط) 1.86s
#129	Inkling low	Thinkingmachines	8	6.1	$0.187	10/22	5.15s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 5.15s
#181	Qwen3.6 Plus Preview medium	Qwen	2	4.9	$0.000	9/19	15.2s
إجمالي الاختبارات 19 الاختبارات الخاطئة 10 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 15.2s
#191	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
إجمالي الاختبارات 19 الاختبارات الخاطئة 10 إجمالي التكلفة $0.069 زمن الاستجابة (المتوسط) 23.8s
#192	Laguna M.1 medium	Poolside	4	4.7	$0.033	9/19	14.7s
إجمالي الاختبارات 19 الاختبارات الخاطئة 10 إجمالي التكلفة $0.033 زمن الاستجابة (المتوسط) 14.7s
#140	Mimo V2 Omni medium	Xiaomi	5	5.9	$0.683	10/21	41.2s
إجمالي الاختبارات 21 الاختبارات الخاطئة 11 إجمالي التكلفة $0.683 زمن الاستجابة (المتوسط) 41.2s
#159	Hy3 preview low	Tencent	4	5.5	$0.015	10/21	24.6s
إجمالي الاختبارات 21 الاختبارات الخاطئة 11 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 24.6s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10	7.4	$0.387	11/22	19.5s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.387 زمن الاستجابة (المتوسط) 19.5s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	10	7.2	$0.482	11/22	20.8s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.482 زمن الاستجابة (المتوسط) 20.8s
#75	Qwen3.7 Plus none	Qwen	10	7.2	$0.106	11/22	12.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 12.1s
#80	DeepSeek V3.2 medium	DeepSeek	5	7.0	$0.078	11/22	68.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.078 زمن الاستجابة (المتوسط) 68.6s
#84	Seed-2.0-Mini medium	Bytedance Seed	4	7.0	$0.101	11/22	92.5s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.101 زمن الاستجابة (المتوسط) 92.5s

إخفاقات إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)