AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs OpenAI: gpt-oss-120b

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-04-29

المقياس	Claude Opus 4.6 Claude Opus 4.6 medium الإصدار: 2026-02-05	gpt-oss-120b gpt-oss-120b medium الإصدار: 2025-08-05 متاح مجانًا

المقياس	Claude Opus 4.6 Claude Opus 4.6 medium الإصدار: 2026-02-05	gpt-oss-120b gpt-oss-120b medium الإصدار: 2025-08-05 متاح مجانًا
النتيجة	7.6	5.8
الترتيب	#49	#88
الموثوقية	غير متاح	غير متاح
الاتساق	9.1	7.2
اختبارات صحيحة
معدل النجاح لكل محاولة	70.4%	51.9%
اختبارات غير مستقرة	2	6
إجمالي مرات التشغيل	54	54
التكلفة لكل نتيجة	12.047	0.144
إجمالي التكلفة	$1.446	$0.011
??? ???????	$5.000 / 1M	$0.000 / 1M
??? ???????	$25.000 / 1M	$0.000 / 1M
رموز الإخراج	29,829	13,493
رموز الاستدلال	18,938	36,879
زمن الاستجابة (المتوسط)	21.08s	16.08s
زمن الاستجابة (الحد الأقصى)	83.40s	50.92s
زمن الاستجابة (الإجمالي)	231.84s	176.88s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	986	1,071
gpt-oss-120b	6.7	9.9	50.0%	0		10.21s	3,518	2,177

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		23.11s	3,486	1,504
gpt-oss-120b	4.3	1.1	66.7%	1		26.33s	228	2,549

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	694	5,072

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	691	757
gpt-oss-120b	6.4	5.9	66.7%	1		1.98s	241	1,114

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	14,642	8,687
gpt-oss-120b	2.9	4.4	22.2%	2		50.92s	6,784	20,606

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
gpt-oss-120b	4.3	10.0	0.0%	0		7.90s	107	387

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
gpt-oss-120b	9.9	10.0	100.0%	0		7.63s	126	1,799

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	7.7	10.0	66.7%	0		4.60s	531	637
gpt-oss-120b	3.2	4.7	22.2%	2		11.80s	1,508	2,092

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
gpt-oss-120b	9.8	10.0	100.0%	0		6.91s	287	1,083

مقارنة سريعة

تبديل زوج المقارنة

Kimi K2.6nonevsgpt-oss-120bmediumمتاح مجانًا gpt-oss-120bmediumمتاح مجانًاvsQwen3.5-27Bnone Claude Opus 4.6mediumvsGPT-5.3 Chatnone gpt-oss-120bmediumمتاح مجانًاvsQwen3.5 Plus 2026-04-20none gpt-oss-120bmediumمتاح مجانًاvsMiMo-V2.5-Pronone gpt-oss-120bmediumمتاح مجانًاvsQwen3.6 Flashnone gpt-oss-120bmediumمتاح مجانًاvsQwen3.5-122B-A10Bnone gpt-oss-120bmediumمتاح مجانًاvsMiMo-V2-Pronone DeepSeek V3.2nonevsgpt-oss-120bmediumمتاح مجانًا gpt-oss-120bmediumمتاح مجانًاvsQwen3.6 27Bnone Claude Opus 4.6mediumvsDeepSeek V4 Flashhigh DeepSeek V4 Prononevsgpt-oss-120bmediumمتاح مجانًا