AI BENCHY Compare

Trinity Large Preview vs OpenAI: gpt-oss-120b

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-06-03

المقياس	Trinity Large Preview Trinity Large Preview none الإصدار: 2026-01-27	gpt-oss-120b gpt-oss-120b none الإصدار: 2025-08-05 متاح مجانًا

المقياس	Trinity Large Preview Trinity Large Preview none الإصدار: 2026-01-27	gpt-oss-120b gpt-oss-120b none الإصدار: 2025-08-05 متاح مجانًا
النتيجة	4.7	5.4
الترتيب	#148	#126
الموثوقية	10.0	10.0
الاتساق	9.3	9.1
اختبارات صحيحة
معدل النجاح لكل محاولة	23.3%	38.6%
اختبارات غير مستقرة	2	2
إجمالي مرات التشغيل	60	57
التكلفة لكل نتيجة	0.017	0.168
إجمالي التكلفة	$0.008	$0.010
سعر الإدخال	$0.243 / 1M	$0.039 / 1M
سعر الإخراج	$0.243 / 1M	$0.180 / 1M
إجمالي رموز الإدخال	29,828	9,081
رموز الإخراج	2,169	51,664
رموز الاستدلال	0	0
زمن الاستجابة (المتوسط)	2.98s	21.61s
زمن الاستجابة (الحد الأقصى)	14.34s	113.71s
زمن الاستجابة (الإجمالي)	56.57s	345.79s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	3.1	10.0	0.0%	0		2.07s	651	550	0
gpt-oss-120b	6.5	10.0	50.0%	0		32.84s	1,336	8,676	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	4.0	6.6	16.7%	1		14.34s	738	397	0
gpt-oss-120b	4.3	1.1	66.7%	1		9.57s	901	3,232	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	3.0	10.0	0.0%	0		8.91s	12,053	294	0
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	10.0	10.0	100.0%	0		3.26s	6,900	186	0
gpt-oss-120b	6.5	10.0	50.0%	0		7.12s	2,421	598	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	5.3	10.0	33.3%	0		877ms	738	25	0
gpt-oss-120b	3.0	10.0	0.0%	0		34.98s	1,294	29,483	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	4.5	10.0	0.0%	0		873ms	498	104	0
gpt-oss-120b	4.8	10.0	0.0%	0		10.79s	584	615	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	3.5	10.0	0.0%	0		822ms	678	63	0
gpt-oss-120b	9.8	10.0	100.0%	0		5.06s	1,043	1,940	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	3.6	7.7	11.1%	1		1.97s	669	265	0
gpt-oss-120b	6.0	7.2	55.6%	1		8.21s	1,188	3,982	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	10.0	10.0	100.0%	0		6.67s	6,699	267	0
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0	0

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	3.0	10.0	0.0%	0		777ms	204	18	0
gpt-oss-120b	3.0	10.0	0.0%	0		47.29s	314	3,138	0

مقارنة سريعة

تبديل زوج المقارنة

Trinity Large PreviewnonevsQwen3 Coder Nextmedium MiniMax M2.5mediumvsgpt-oss-120bnoneمتاح مجانًا MiniMax M2.7mediumvsgpt-oss-120bnoneمتاح مجانًا Mistral Small 4mediumvsgpt-oss-120bnoneمتاح مجانًا gpt-oss-120bnoneمتاح مجانًاvsElephant Alphamedium Trinity Large PreviewnonevsGLM 4.7 Flashmedium Cobuddymediumvsgpt-oss-120bnoneمتاح مجانًا gpt-oss-120bnoneمتاح مجانًاvsOwl Alphamedium Trinity Large PreviewnonevsQwen3.5-9Bmedium Nemotron 3 Supermediumمتاح مجانًاvsgpt-oss-120bnoneمتاح مجانًا Trinity Large PreviewnonevsElephant Alphamedium DeepSeek V4 Prohighvsgpt-oss-120bnoneمتاح مجانًا