قارن الرسوم البيانية المنهجية

اللغة:

❤️ Made by XCS

AI BENCHY Compare

Trinity Large Preview vs OpenAI: gpt-oss-120b

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-06

المقياس	Trinity Large Preview none الإصدار: 2026-01-27 متاح مجانًا	OpenAI: gpt-oss-120b medium الإصدار: 2025-08-05 متاح مجانًا
الترتيب	#45	#39
متوسط الدرجة	4.2	5.1
الاتساق	9.6	7.4
التكلفة لكل نتيجة	0.000	0.135
إجمالي التكلفة	$0.000	$0.010
اختبارات صحيحة
معدل النجاح لكل محاولة	33.3%	54.2%
اختبارات غير مستقرة	1	5
إجمالي مرات التشغيل	48	48
رموز الإخراج	1,837	13,210
رموز الاستدلال	0	34,230
زمن الاستجابة (المتوسط)	3.15s	16.65s
زمن الاستجابة (الحد الأقصى)	8.91s	50.92s
زمن الاستجابة (الإجمالي)	50.46s	149.88s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

متوسط الدرجة vs زمن الاستجابة (المتوسط)

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	10.0	10.0	0.0%	0		3.59s	587	0
OpenAI: gpt-oss-120b	7.0	9.8	66.7%	0		19.76s	3,463	2,077

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	10.0	10.0	0.0%	0		8.91s	294	0
OpenAI: gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	694	5,072

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	9.9	10.0	100.0%	0		3.26s	186	0
OpenAI: gpt-oss-120b	5.5	5.9	66.7%	1		1.98s	241	1,114

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	4.0	10.0	33.3%	0		877ms	25	0
OpenAI: gpt-oss-120b	10.0	4.4	22.2%	2		50.92s	6,784	20,606

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	3.0	9.9	0.0%	0		2.86s	124	0
OpenAI: gpt-oss-120b	3.0	10.0	0.0%	0		7.90s	107	387

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	3.5	6.7	16.7%	1		1.09s	63	0
OpenAI: gpt-oss-120b	9.5	10.0	100.0%	0		7.63s	126	1,799

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	4.0	10.0	33.3%	0		3.30s	291	0
OpenAI: gpt-oss-120b	1.7	4.7	22.2%	2		11.80s	1,508	2,092

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	10.0	10.0	100.0%	0		6.67s	267	0
OpenAI: gpt-oss-120b	9.0	10.0	100.0%	0		6.91s	287	1,083

مقارنة سريعة

تبديل زوج المقارنة

gpt-oss-120bmediumمتاح مجانًاvsQwen3.5-122B-A10Bnone Gemini 2.5 Flashnonevsgpt-oss-120bmediumمتاح مجانًا gpt-oss-120bmediumمتاح مجانًاvsQwen3.5-Flashnone gpt-oss-120bmediumمتاح مجانًاvsQwen3.5-27Bnone gpt-oss-120bmediumمتاح مجانًاvsQwen3.5-35B-A3Bnone DeepSeek V3.2nonevsgpt-oss-120bmediumمتاح مجانًا Trinity Large Previewnoneمتاح مجانًاvsMiniMax M2.5medium Trinity Large Previewnoneمتاح مجانًاvsQwen3 Coder Nextmedium gpt-oss-120bmediumمتاح مجانًاvsGLM 5none Kimi K2.5nonevsgpt-oss-120bmediumمتاح مجانًا Trinity Large Previewnoneمتاح مجانًاvsMercury 2medium gpt-oss-120bmediumمتاح مجانًاvsQwen3 Coder Nextnone