ترتيب إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

إجمالي الإخفاقات

1585

النموذج الأكثر تأثرًا

Step 3.5 Flash 4

الفئات

ضمن الفئة خاص بالمجال421 ضمن الفئة حيل مضادة للذكاء الاصطناعي293 ضمن الفئة البرمجة259 ضمن الفئة حل الألغاز204 ضمن الفئة معلومات عامة172 ضمن الفئة مجمّع69 ضمن الفئة الذكاء العام62 ضمن الفئة اتباع التعليمات61 ضمن الفئة تحليل البيانات واستخراجها41 ضمن الفئة استدعاء الأدوات3

215/215

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#31	Gemini 3.5 Flash-Lite high	Google	6	8.1	$0.584	14/22	9.48s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.584 زمن الاستجابة (المتوسط) 9.48s
#101	GLM 5.2 none	Z.ai	8	6.6	$0.128	12/22	9.34s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.128 زمن الاستجابة (المتوسط) 9.34s
#182	GLM 4.7 Flash none	Z.ai	13	4.9	$0.016	6/22	9.15s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 9.15s
#172	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 9.12s
#139	Gemini 3 PRO Preview medium	Google	3	6.0	$0.385	14/21	9.05s
إجمالي الاختبارات 21 الاختبارات الخاطئة 7 إجمالي التكلفة $0.385 زمن الاستجابة (المتوسط) 9.05s
#5	GPT-5.6 Sol low	OpenAI	4	9.5	$0.971	18/22	8.79s
إجمالي الاختبارات 22 الاختبارات الخاطئة 4 إجمالي التكلفة $0.971 زمن الاستجابة (المتوسط) 8.79s
#168	Ling-2.6-1T none	Inclusionai	12	5.3	$0.016	4/22	8.58s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 8.58s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	11	5.6	$0.048	8/22	8.42s
إجمالي الاختبارات 22 الاختبارات الخاطئة 14 إجمالي التكلفة $0.048 زمن الاستجابة (المتوسط) 8.42s
#12	Gemini 3.5 Flash medium	Google	2	9.1	$0.642	19/22	8.20s
إجمالي الاختبارات 22 الاختبارات الخاطئة 3 إجمالي التكلفة $0.642 زمن الاستجابة (المتوسط) 8.20s
#67	Claude Sonnet 4.6 none	Anthropic	5	7.3	$0.661	12/22	8.12s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.661 زمن الاستجابة (المتوسط) 8.12s
#103	Qwen3.6 Max Preview none	Qwen	10	6.6	$0.231	12/22	7.82s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.231 زمن الاستجابة (المتوسط) 7.82s
#34	GPT-5.2 Chat none	OpenAI	6	8.0	$0.604	14/22	7.65s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.604 زمن الاستجابة (المتوسط) 7.65s
#162	Gemma 4 26B A4B none	Google	10	5.5	$0.015	8/22	7.64s
إجمالي الاختبارات 22 الاختبارات الخاطئة 14 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 7.64s
#18	Claude Opus 4.7 medium	Anthropic	3	8.7	$1.477	18/22	7.61s
إجمالي الاختبارات 22 الاختبارات الخاطئة 4 إجمالي التكلفة $1.477 زمن الاستجابة (المتوسط) 7.61s
#54	GPT-5.6 Luna medium	OpenAI	8	7.6	$0.352	14/22	7.28s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.352 زمن الاستجابة (المتوسط) 7.28s

←

1 9 10 11 15

→

إخفاقات إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)