ترتيب النماذج لفئة خاص بالمجال

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في خاص بالمجال، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات.

النماذج المعروضة

متوسط درجة خاص بالمجال

4.7

أفضل نموذج

أسباب الفشل

مع سبب الفشل إجابة خاطئة421 مع سبب الفشل انتهت المهلة43 مع سبب الفشل تنسيق إضافي17 مع سبب الفشل لا توجد إجابة8 مع سبب الفشل خطأ API7 مع سبب الفشل لم يتبع التعليمات1

216/216

الترتيب	النموذج	الشركة	درجة خاص بالمجال	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#60	GPT-5.4 Mini medium	OpenAI	4.1	7.5	$0.756	0/3	65.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.756 زمن الاستجابة (المتوسط) 65.3s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	4.1	7.4	$0.387	0/3	17.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.387 زمن الاستجابة (المتوسط) 17.5s
#90	Step 3.7 Flash high	Stepfun	4.1	6.9	$1.207	0/3	149.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $1.207 زمن الاستجابة (المتوسط) 149.6s
#125	Qwen3.5-35B-A3B medium	Qwen	4.1	6.2	$0.837	0/3	88.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.837 زمن الاستجابة (المتوسط) 88.3s
#204	Laguna Xs.2 medium	Poolside	4.1	4.1	$0.015	0/3	11.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 11.1s
#35	GLM 5.2 high	Z.ai	3.7	8.0	$0.817	0/3	74.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.817 زمن الاستجابة (المتوسط) 74.0s
#15	Grok 4.5 high	X AI	3.6	8.9	$1.707	0/3	332.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $1.707 زمن الاستجابة (المتوسط) 332.1s
#29	GPT-5 Mini medium	OpenAI	3.6	8.1	$0.237	0/3	44.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.237 زمن الاستجابة (المتوسط) 44.6s
#40	Qwen3.7 Plus medium	Qwen	3.6	7.9	$0.267	0/3	45.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.267 زمن الاستجابة (المتوسط) 45.3s
#50	DeepSeek V4 Pro high	DeepSeek	3.6	7.7	$0.200	0/3	151.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.200 زمن الاستجابة (المتوسط) 151.5s
#87	GPT-5.6 Sol none	OpenAI	3.6	6.9	$0.524	0/3	1.43s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.524 زمن الاستجابة (المتوسط) 1.43s
#95	Gemini 3.5 Flash-Lite low	Google	3.6	6.7	$0.145	0/3	3.63s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.145 زمن الاستجابة (المتوسط) 3.63s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	3.6	6.7	$0.476	0/3	21.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.476 زمن الاستجابة (المتوسط) 21.6s
#102	LongCat 2.0 high	Meituan	3.6	6.6	$0.469	0/3	400.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.469 زمن الاستجابة (المتوسط) 400.3s
#122	Seed-2.0-Lite none	Bytedance Seed	3.6	6.2	$0.066	0/3	1.33s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.066 زمن الاستجابة (المتوسط) 1.33s

ترتيب خاص بالمجال

تصفية النماذج

أفضل النماذج حسب درجة خاص بالمجال

درجة خاص بالمجال مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)