AI BENCHY Compare

Arcee AI: Trinity Large Preview vs OpenAI: GPT-5.4 Mini

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-04-29

المقياس	Trinity Large Preview Trinity Large Preview none الإصدار: 2026-01-27	GPT-5.4 Mini GPT-5.4 Mini none الإصدار: 2026-03-17

المقياس	Trinity Large Preview Trinity Large Preview none الإصدار: 2026-01-27	GPT-5.4 Mini GPT-5.4 Mini none الإصدار: 2026-03-17
النتيجة	5.3	5.1
الترتيب	#102	#112
الموثوقية	غير متاح	غير متاح
الاتساق	9.6	8.6
اختبارات صحيحة
معدل النجاح لكل محاولة	29.6%	35.2%
اختبارات غير مستقرة	1	3
إجمالي مرات التشغيل	52	54
التكلفة لكل نتيجة	0.000	0.630
إجمالي التكلفة	$0.000	$0.032
??? ???????	$0.150 / 1M	$0.750 / 1M
??? ???????	$0.450 / 1M	$4.500 / 1M
رموز الإخراج	1,985	2,418
رموز الاستدلال	0	0
زمن الاستجابة (المتوسط)	5.07s	1.17s
زمن الاستجابة (الحد الأقصى)	39.47s	2.52s
زمن الاستجابة (الإجمالي)	91.23s	21.01s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	3.0	10.0	0.0%	0		3.02s	593	0
GPT-5.4 Mini	3.1	8.1	8.3%	1		929ms	654	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	6.3	10.0	0.0%	0		39.47s	142	0
GPT-5.4 Mini	10.0	10.0	100.0%	0		1.19s	333	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	3.0	10.0	0.0%	0		8.91s	294	0
GPT-5.4 Mini	3.0	10.0	0.0%	0		2.52s	298	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	10.0	10.0	100.0%	0		3.26s	186	0
GPT-5.4 Mini	10.0	10.0	100.0%	0		1.30s	222	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	5.3	10.0	33.3%	0		877ms	25	0
GPT-5.4 Mini	3.5	4.4	33.3%	2		937ms	88	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	4.4	9.9	0.0%	0		2.86s	124	0
GPT-5.4 Mini	4.8	10.0	0.0%	0		1.82s	174	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	4.1	6.7	16.7%	1		1.09s	63	0
GPT-5.4 Mini	6.3	10.0	50.0%	0		728ms	101	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	5.4	10.0	33.3%	0		3.30s	291	0
GPT-5.4 Mini	5.4	10.0	33.3%	0		860ms	293	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Trinity Large Preview	10.0	10.0	100.0%	0		6.67s	267	0
GPT-5.4 Mini	3.0	10.0	0.0%	0		2.32s	255	0

مقارنة سريعة

تبديل زوج المقارنة

Trinity Large PreviewnonevsMiniMax M2.7medium Nemotron 3 Nano Omni 30b A3b Reasoningmediumمتاح مجانًاvsGPT-5.4 Mininone Trinity Large PreviewnonevsElephant Alphamedium GPT-5.4 MininonevsElephant Alphamedium Trinity Large PreviewnonevsNemotron 3 Nano Omni 30b A3b Reasoningmediumمتاح مجانًا MiniMax M2.7mediumvsGPT-5.4 Mininone Trinity Large PreviewnonevsMistral Small 4medium Trinity Large PreviewnonevsMiniMax M2.5mediumمتاح مجانًا GPT-5.4 MininonevsQwen3 Coder Nextmedium Trinity Large Previewnonevsgpt-oss-120bmediumمتاح مجانًا Mistral Small 4mediumvsGPT-5.4 Mininone GPT-5.4 MininonevsGLM 4.7 Flashmedium