قارن الرسوم البيانية المنهجية

اللغة:

❤️ Made by XCS

AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Trinity Large Preview

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-06

المقياس	Anthropic: Claude Opus 4.6 medium الإصدار: 2026-02-05	Trinity Large Preview none الإصدار: 2026-01-27 متاح مجانًا
الترتيب	#26	#45
متوسط الدرجة	6.6	4.2
الاتساق	9.0	9.6
التكلفة لكل نتيجة	13.118	0.000
إجمالي التكلفة	$1.312	$0.000
اختبارات صحيحة
معدل النجاح لكل محاولة	66.7%	33.3%
اختبارات غير مستقرة	2	1
إجمالي مرات التشغيل	48	48
رموز الإخراج	26,254	1,837
رموز الاستدلال	17,363	0
زمن الاستجابة (المتوسط)	22.86s	3.15s
زمن الاستجابة (الحد الأقصى)	83.40s	8.91s
زمن الاستجابة (الإجمالي)	205.71s	50.46s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

متوسط الدرجة vs زمن الاستجابة (المتوسط)

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	4.0	4.4	55.6%	2		11.88s	897	1,000
Trinity Large Preview	10.0	10.0	0.0%	0		3.59s	587	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
Trinity Large Preview	10.0	10.0	0.0%	0		8.91s	294	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	9.9	10.0	100.0%	0		7.37s	691	757
Trinity Large Preview	9.9	10.0	100.0%	0		3.26s	186	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	10.0	10.0	0.0%	0		83.40s	14,642	8,687
Trinity Large Preview	4.0	10.0	33.3%	0		877ms	25	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
Trinity Large Preview	3.0	9.9	0.0%	0		2.86s	124	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
Trinity Large Preview	3.5	6.7	16.7%	1		1.09s	63	0

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	7.0	10.0	66.7%	0		4.60s	531	637
Trinity Large Preview	4.0	10.0	33.3%	0		3.30s	291	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
Trinity Large Preview	10.0	10.0	100.0%	0		6.67s	267	0

مقارنة سريعة

تبديل زوج المقارنة

Claude Opus 4.6mediumvsQwen3.5 Plus 2026-02-15none Trinity Large Previewnoneمتاح مجانًاvsMiniMax M2.5medium Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Opus 4.6mediumvsGLM 5none Claude Opus 4.6mediumvsGemini 3 Flash Previewnone Trinity Large Previewnoneمتاح مجانًاvsQwen3 Coder Nextmedium Claude Opus 4.6mediumvsGPT-5.3 Chatnone Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Opus 4.6mediumvsGPT-5.2 Chatnone Trinity Large Previewnoneمتاح مجانًاvsgpt-oss-120bmediumمتاح مجانًا Claude Opus 4.6mediumvsDeepSeek V3.2none Trinity Large Previewnoneمتاح مجانًاvsMercury 2medium