ترتيب إخفاقات خطأ API

اكتشف أي نماذج الذكاء الاصطناعي تواجه خطأ API أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

إجمالي الإخفاقات

161

النموذج الأكثر تأثرًا

Kimi K3 2

الفئات

ضمن الفئة البرمجة45 ضمن الفئة مجمّع26 ضمن الفئة استدعاء الأدوات17 ضمن الفئة تحليل البيانات واستخراجها14 ضمن الفئة حيل مضادة للذكاء الاصطناعي14 ضمن الفئة معلومات عامة13 ضمن الفئة الذكاء العام12 ضمن الفئة حل الألغاز12 ضمن الفئة خاص بالمجال7 ضمن الفئة اتباع التعليمات1

68/68

الترتيب	النموذج	الشركة	عدد خطأ API	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#196	Hunter Alpha none	OpenRouter	1	4.2	$0.000	6/18	4.70s
إجمالي الاختبارات 18 الاختبارات الخاطئة 12 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 4.70s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	3	5.6	$0.077	7/22	15.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 15 إجمالي التكلفة $0.077 زمن الاستجابة (المتوسط) 15.9s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	2	5.4	$0.041	7/22	10.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 15 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 10.1s
#198	Laguna Xs.2 medium	Poolside	4	4.1	$0.015	6/19	6.73s
إجمالي الاختبارات 19 الاختبارات الخاطئة 13 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 6.73s
#206	gpt-oss-120b none	OpenAI	3	3.7	$0.010	6/19	21.6s
إجمالي الاختبارات 19 الاختبارات الخاطئة 13 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 21.6s
#195	Elephant Alpha medium	Openrouter	3	4.3	$0.000	6/21	1.27s
إجمالي الاختبارات 21 الاختبارات الخاطئة 15 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 1.27s
#173	DeepSeek V3.2 none	DeepSeek	4	5.0	$0.054	6/22	18.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.054 زمن الاستجابة (المتوسط) 18.3s
#178	Ling-2.6-flash none	Inclusionai	2	4.9	$0.002	6/22	10.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.002 زمن الاستجابة (المتوسط) 10.7s
#205	Laguna Xs.2 none	Poolside	4	3.8	$0.004	5/19	806ms
إجمالي الاختبارات 19 الاختبارات الخاطئة 14 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 806ms
#193	Elephant Alpha none	Openrouter	3	4.3	$0.000	5/21	1.22s
إجمالي الاختبارات 21 الاختبارات الخاطئة 16 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 1.22s
#167	Mistral Small 4 medium	Mistral	2	5.1	$0.096	5/22	10.8s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 10.8s
#172	MiniMax M2.7 medium	Minimax	1	5.0	$0.163	5/22	41.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 41.3s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	1	4.8	$0.067	5/22	12.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.067 زمن الاستجابة (المتوسط) 12.2s
#192	Laguna M.1 none	Poolside	4	4.4	$0.009	4/19	2.89s
إجمالي الاختبارات 19 الاختبارات الخاطئة 15 إجمالي التكلفة $0.009 زمن الاستجابة (المتوسط) 2.89s
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	6	3.4	$0.000	4/19	17.1s
إجمالي الاختبارات 19 الاختبارات الخاطئة 15 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 17.1s

←

1 2 3 4 5

→

إخفاقات خطأ API

تصفية النماذج

أفضل النماذج حسب عدد خطأ API

عدد خطأ API مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)