AI BENCHY Compare

Arcee AI: Trinity Large Preview vs OpenAI: GPT-4o-mini

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-04-30

المقياس	Trinity Large Preview Trinity Large Preview none الإصدار: 2026-01-27	GPT-4o-mini GPT-4o-mini none الإصدار: 2024-07-18

المقياس	Trinity Large Preview Trinity Large Preview none الإصدار: 2026-01-27	GPT-4o-mini GPT-4o-mini none الإصدار: 2024-07-18
النتيجة	5.2	5.1
الترتيب	#110	#119
الموثوقية	غير متاح	غير متاح
الاتساق	9.6	9.9
اختبارات صحيحة
معدل النجاح لكل محاولة	29.6%	27.8%
اختبارات غير مستقرة	1	0
إجمالي مرات التشغيل	52	54
التكلفة لكل نتيجة	0.000	0.098
إجمالي التكلفة	$0.000	$0.005
??? ???????	$0.150 / 1M	$0.150 / 1M
??? ???????	$0.450 / 1M	$0.600 / 1M
رموز الإخراج	1,985	1,947
رموز الاستدلال	0	0
زمن الاستجابة (المتوسط)	5.07s	2.00s
زمن الاستجابة (الحد الأقصى)	39.47s	7.58s
زمن الاستجابة (الإجمالي)	91.23s	21.99s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	3.0	10.0	0.0%	0		3.02s	593	0
GPT-4o-mini	4.8	10.0	25.0%	0		1.34s	186	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	6.3	10.0	0.0%	0		39.47s	142	0
GPT-4o-mini	3.0	8.7	0.0%	0		2.55s	347	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	3.0	10.0	0.0%	0		8.91s	294	0
GPT-4o-mini	3.0	10.0	0.0%	0		7.58s	568	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	10.0	10.0	100.0%	0		3.26s	186	0
GPT-4o-mini	10.0	10.0	100.0%	0		1.27s	183	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	5.3	10.0	33.3%	0		877ms	25	0
GPT-4o-mini	3.0	10.0	0.0%	0		637ms	15	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	4.4	9.9	0.0%	0		2.86s	124	0
GPT-4o-mini	4.0	10.0	0.0%	0		909ms	66	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	3.4	6.2	16.7%	1		1.09s	63	0
GPT-4o-mini	6.3	10.0	50.0%	0		1.27s	69	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	5.4	10.0	33.3%	0		3.30s	291	0
GPT-4o-mini	3.7	10.0	0.0%	0		1.30s	308	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	10.0	10.0	100.0%	0		6.67s	267	0
GPT-4o-mini	10.0	10.0	100.0%	0		2.51s	205	0

مقارنة سريعة

تبديل زوج المقارنة

Trinity Large PreviewnonevsElephant Alphamedium Trinity Large PreviewnonevsNemotron 3 Nano Omni 30b A3b Reasoningmediumمتاح مجانًا Trinity Large PreviewnonevsMiniMax M2.7medium Nemotron 3 Nano Omni 30b A3b Reasoningmediumمتاح مجانًاvsGPT-4o-mininone GPT-4o-mininonevsQwen3 Coder Nextmedium GPT-4o-mininonevsElephant Alphamedium MiniMax M2.7mediumvsGPT-4o-mininone Trinity Large PreviewnonevsQwen3 Coder Nextmedium Trinity Large PreviewnonevsMiniMax M2.5mediumمتاح مجانًا Trinity Large PreviewnonevsMistral Small 4medium GPT-4o-mininonevsGLM 4.7 Flashmedium MiniMax M2.5mediumمتاح مجانًاvsGPT-4o-mininone