ترتيب النماذج لفئة خاص بالمجال

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في خاص بالمجال، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

متوسط درجة خاص بالمجال

4.7

أفضل نموذج

Grok 4.5 3.6

أسباب الفشل

مع سبب الفشل إجابة خاطئة421 مع سبب الفشل انتهت المهلة43 مع سبب الفشل تنسيق إضافي17 مع سبب الفشل لا توجد إجابة8 مع سبب الفشل خطأ API7 مع سبب الفشل لم يتبع التعليمات1

216/216

الترتيب	النموذج	الشركة	درجة خاص بالمجال	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#98	GLM 5V Turbo medium	Z.ai	5.3	6.7	$0.457	1/3	38.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.457 زمن الاستجابة (المتوسط) 38.1s
#101	GLM 5.2 none	Z.ai	5.3	6.6	$0.128	1/3	4.04s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.128 زمن الاستجابة (المتوسط) 4.04s
#106	Hy3 preview medium	Tencent	5.3	6.5	$0.018	1/3	22.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.018 زمن الاستجابة (المتوسط) 22.3s
#107	MiMo-V2.5 medium	Xiaomi	5.3	6.5	$0.082	1/3	34.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.082 زمن الاستجابة (المتوسط) 34.5s
#110	Gemini 3.1 Flash Lite Preview low	Google	5.3	6.5	$0.646	1/3	2.36s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.646 زمن الاستجابة (المتوسط) 2.36s
#111	Gemini 3.1 Flash Lite low	Google	5.3	6.5	$0.621	1/3	1.52s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.621 زمن الاستجابة (المتوسط) 1.52s
#112	Gemini 3.1 Flash Lite Preview none	Google	5.3	6.4	$0.052	1/3	942ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.052 زمن الاستجابة (المتوسط) 942ms
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	5.3	6.4	$0.073	1/3	1.17s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 1.17s
#115	Mimo V2 PRO medium	Xiaomi	5.3	6.3	$0.333	1/3	8.82s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.333 زمن الاستجابة (المتوسط) 8.82s
#118	Claude Sonnet 5 none	Anthropic	5.3	6.3	$0.548	1/3	3.28s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.548 زمن الاستجابة (المتوسط) 3.28s
#119	MiMo-V2-Flash medium	Xiaomi	5.9	6.3	$0.043	1/3	96.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.043 زمن الاستجابة (المتوسط) 96.0s
#120	Qwen3.5-Flash medium	Qwen	5.3	6.2	$0.139	1/3	146.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.139 زمن الاستجابة (المتوسط) 146.5s
#124	Gemini 2.5 Flash none	Google	5.9	6.2	$0.017	1/3	495ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 495ms
#129	Inkling low	Thinkingmachines	5.3	6.1	$0.187	1/3	1.99s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 1.99s
#130	Qwen3.6 Flash none	Qwen	5.3	6.1	$0.062	1/3	1.11s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.062 زمن الاستجابة (المتوسط) 1.11s

←

1 9 10 11 15

→

ترتيب خاص بالمجال

تصفية النماذج

أفضل النماذج حسب درجة خاص بالمجال

درجة خاص بالمجال مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)