ترتيب إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

إجمالي الإخفاقات

1585

النموذج الأكثر تأثرًا

Gemini 3.6 Flash 1

الفئات

ضمن الفئة خاص بالمجال421 ضمن الفئة حيل مضادة للذكاء الاصطناعي293 ضمن الفئة البرمجة259 ضمن الفئة حل الألغاز204 ضمن الفئة معلومات عامة172 ضمن الفئة مجمّع69 ضمن الفئة الذكاء العام62 ضمن الفئة اتباع التعليمات61 ضمن الفئة تحليل البيانات واستخراجها41 ضمن الفئة استدعاء الأدوات3

215/215

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#33	Step 3.7 Flash medium	Stepfun	5	8.0	$0.515	14/22	26.4s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.515 زمن الاستجابة (المتوسط) 26.4s
#34	GPT-5.2 Chat none	OpenAI	6	8.0	$0.604	14/22	7.65s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.604 زمن الاستجابة (المتوسط) 7.65s
#35	GLM 5.2 high	Z.ai	3	8.0	$0.817	14/22	62.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.817 زمن الاستجابة (المتوسط) 62.7s
#38	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $1.055 زمن الاستجابة (المتوسط) 11.3s
#39	Seed-2.0-Lite medium	Bytedance Seed	5	7.9	$0.234	14/22	48.5s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.234 زمن الاستجابة (المتوسط) 48.5s
#43	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.676 زمن الاستجابة (المتوسط) 7.11s
#44	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $2.057 زمن الاستجابة (المتوسط) 25.9s
#52	Grok Build 0.1 medium	X AI	5	7.6	$1.097	14/22	52.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $1.097 زمن الاستجابة (المتوسط) 52.1s
#54	GPT-5.6 Luna medium	OpenAI	8	7.6	$0.352	14/22	7.28s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.352 زمن الاستجابة (المتوسط) 7.28s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	4	7.5	$0.437	14/22	89.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.437 زمن الاستجابة (المتوسط) 89.2s
#76	Qwen3.5-122B-A10B medium	Qwen	5	7.1	$1.046	14/22	64.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $1.046 زمن الاستجابة (المتوسط) 64.2s
#92	Gemini 3.5 Flash minimal	Google	5	6.8	$0.300	14/22	2.65s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.300 زمن الاستجابة (المتوسط) 2.65s
#100	Gemma 4 26B A4B medium	Google	3	6.6	$0.089	14/22	103.8s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.089 زمن الاستجابة (المتوسط) 103.8s
#116	Gemma 4 31B medium	Google	2	6.3	$0.107	14/22	75.4s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.107 زمن الاستجابة (المتوسط) 75.4s
#27	Muse Spark 1.1 low	Meta	6	8.3	$0.647	13/22	11.5s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.647 زمن الاستجابة (المتوسط) 11.5s

إخفاقات إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)