ترتيب إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: عدد الإخفاقات ↑.

النماذج المعروضة

إجمالي الإخفاقات

1585

النموذج الأكثر تأثرًا

Gemini 3.6 Flash 1

الفئات

ضمن الفئة خاص بالمجال421 ضمن الفئة حيل مضادة للذكاء الاصطناعي293 ضمن الفئة البرمجة259 ضمن الفئة حل الألغاز204 ضمن الفئة معلومات عامة172 ضمن الفئة مجمّع69 ضمن الفئة الذكاء العام62 ضمن الفئة اتباع التعليمات61 ضمن الفئة تحليل البيانات واستخراجها41 ضمن الفئة استدعاء الأدوات3

215/215

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#59	GPT-5.6 Terra low	OpenAI	8	7.5	$0.519	13/22	5.31s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.519 زمن الاستجابة (المتوسط) 5.31s
#71	Step 3.7 Flash low	Stepfun	8	7.3	$0.454	12/22	20.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.454 زمن الاستجابة (المتوسط) 20.7s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	8	7.2	$0.317	13/22	46.4s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.317 زمن الاستجابة (المتوسط) 46.4s
#82	Mercury 2 medium	Inception	8	7.0	$0.093	10/22	2.72s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.093 زمن الاستجابة (المتوسط) 2.72s
#86	DeepSeek V4 Pro none	DeepSeek	8	6.9	$0.096	10/22	11.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 11.6s
#89	Qwen3.6 Flash medium	Qwen	8	6.9	$0.738	12/22	44.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.738 زمن الاستجابة (المتوسط) 44.7s
#93	Gemini 3 Flash Preview none	Google	8	6.8	$0.085	13/22	2.95s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.085 زمن الاستجابة (المتوسط) 2.95s
#96	LongCat 2.0 low	Meituan	8	6.7	$0.391	10/22	100.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 100.3s
#101	GLM 5.2 none	Z.ai	8	6.6	$0.128	12/22	9.34s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.128 زمن الاستجابة (المتوسط) 9.34s
#126	Gemini 3.1 Flash Lite minimal	Google	8	6.1	$0.047	10/22	1.86s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.047 زمن الاستجابة (المتوسط) 1.86s
#129	Inkling low	Thinkingmachines	8	6.1	$0.187	10/22	5.15s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 5.15s
#205	Hy3 preview none	Tencent	8	4.0	$0.003	4/21	12.9s
إجمالي الاختبارات 21 الاختبارات الخاطئة 17 إجمالي التكلفة $0.003 زمن الاستجابة (المتوسط) 12.9s
#211	Laguna Xs.2 none	Poolside	8	3.8	$0.004	5/19	806ms
إجمالي الاختبارات 19 الاختبارات الخاطئة 14 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 806ms
#212	gpt-oss-120b none	OpenAI	8	3.7	$0.010	6/19	21.6s
إجمالي الاختبارات 19 الاختبارات الخاطئة 13 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 21.6s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9	6.9	$0.467	11/22	24.0s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.467 زمن الاستجابة (المتوسط) 24.0s

إخفاقات إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)