ترتيب النماذج لفئة خاص بالمجال

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في خاص بالمجال، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

متوسط درجة خاص بالمجال

4.7

أفضل نموذج

Gemini 3 Flash Preview 10.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة412 مع سبب الفشل انتهت المهلة43 مع سبب الفشل تنسيق إضافي17 مع سبب الفشل لا توجد إجابة8 مع سبب الفشل خطأ API7 مع سبب الفشل لم يتبع التعليمات1

210/210

الترتيب	النموذج	الشركة	درجة خاص بالمجال	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#1	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	3/3	15.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.742 زمن الاستجابة (المتوسط) 15.3s
#88	Gemini 3.5 Flash minimal	Google	10.0	6.8	$0.300	3/3	899ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.300 زمن الاستجابة (المتوسط) 899ms
#209	Step 3.5 Flash none	Stepfun	3.3	2.3	$0.020	1/1	34.5s
إجمالي الاختبارات 1 الاختبارات الخاطئة 0 إجمالي التكلفة $0.020 زمن الاستجابة (المتوسط) 34.5s
#2	Gemini 3.5 Flash high	Google	7.6	9.5	$1.976	2/3	14.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.976 زمن الاستجابة (المتوسط) 14.1s
#7	Gemini 3.1 Pro Preview medium	Google	7.7	9.2	$1.361	2/3	32.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.361 زمن الاستجابة (المتوسط) 32.7s
#9	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.642	2/3	5.24s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.642 زمن الاستجابة (المتوسط) 5.24s
#11	Gemini 3.5 Flash low	Google	7.7	8.9	$0.433	2/3	3.39s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.433 زمن الاستجابة (المتوسط) 3.39s
#15	Claude Opus 4.7 medium	Anthropic	7.7	8.7	$1.477	2/3	1.17s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.477 زمن الاستجابة (المتوسط) 1.17s
#23	Claude Sonnet 5 medium	Anthropic	7.7	8.3	$0.922	2/3	20.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.922 زمن الاستجابة (المتوسط) 20.4s
#28	Inkling high	Thinkingmachines	7.7	8.0	$1.006	2/3	186.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.006 زمن الاستجابة (المتوسط) 186.4s
#29	Step 3.7 Flash medium	Stepfun	7.7	8.0	$0.515	2/3	48.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.515 زمن الاستجابة (المتوسط) 48.3s
#44	GPT-5.6 Luna high	OpenAI	7.7	7.7	$1.017	2/3	79.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.017 زمن الاستجابة (المتوسط) 79.0s
#59	Qwen3.7 Max none	Qwen	7.7	7.4	$0.197	2/3	975ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.197 زمن الاستجابة (المتوسط) 975ms
#63	Claude Sonnet 4.6 none	Anthropic	7.7	7.3	$0.661	2/3	3.54s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.661 زمن الاستجابة (المتوسط) 3.54s
#79	Gemini 3.5 Flash none	Google	7.6	7.0	$1.079	2/3	10.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.079 زمن الاستجابة (المتوسط) 10.6s

ترتيب خاص بالمجال

تصفية النماذج

أفضل النماذج حسب درجة خاص بالمجال

درجة خاص بالمجال مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)