AI BENCHY Compare

Inception: Mercury 2 vs OpenAI: gpt-oss-120b

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-06-03

المقياس	Mercury 2 Mercury 2 none الإصدار: 2026-02-24	gpt-oss-120b gpt-oss-120b medium الإصدار: 2025-08-05 متاح مجانًا

المقياس	Mercury 2 Mercury 2 none الإصدار: 2026-02-24	gpt-oss-120b gpt-oss-120b medium الإصدار: 2025-08-05 متاح مجانًا
النتيجة	4.6	5.9
الترتيب	#153	#103
الموثوقية	10.0	10.0
الاتساق	9.1	7.9
اختبارات صحيحة
معدل النجاح لكل محاولة	25.0%	50.0%
اختبارات غير مستقرة	2	5
إجمالي مرات التشغيل	60	60
التكلفة لكل نتيجة	0.216	0.151
إجمالي التكلفة	$0.009	$0.012
سعر الإدخال	$0.250 / 1M	$0.039 / 1M
سعر الإخراج	$0.750 / 1M	$0.180 / 1M
إجمالي رموز الإدخال	25,515	36,355
رموز الإخراج	3,001	17,495
رموز الاستدلال	0	46,878
زمن الاستجابة (المتوسط)	614ms	22.41s
زمن الاستجابة (الحد الأقصى)	1.27s	68.16s
زمن الاستجابة (الإجمالي)	12.28s	291.35s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Mercury 2	3.0	10.0	0.0%	0		483ms	631	286	0
gpt-oss-120b	6.7	9.9	50.0%	0		10.21s	1,314	3,518	2,177

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Mercury 2	3.5	9.4	0.0%	0		831ms	4,631	1,650	0
gpt-oss-120b	3.9	5.6	33.3%	1		47.24s	5,053	847	8,618

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Mercury 2	3.0	10.0	0.0%	0		606ms	4,821	131	0
gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	11,535	694	5,072

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Mercury 2	7.3	5.9	83.3%	1		667ms	6,362	180	0
gpt-oss-120b	6.4	5.9	66.7%	1		1.98s	7,476	241	1,114

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Mercury 2	5.3	7.2	44.4%	1		534ms	784	46	0
gpt-oss-120b	2.9	4.4	22.2%	2		50.92s	1,266	6,784	20,606

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Mercury 2	4.8	10.0	0.0%	0		628ms	495	159	0
gpt-oss-120b	4.3	10.0	0.0%	0		7.90s	659	107	387

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Mercury 2	6.5	10.0	50.0%	0		551ms	691	82	0
gpt-oss-120b	9.9	10.0	100.0%	0		7.63s	1,036	126	1,799

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Mercury 2	3.1	10.0	0.0%	0		535ms	694	251	0
gpt-oss-120b	5.3	7.2	44.4%	1		21.71s	1,190	1,790	2,264

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Mercury 2	10.0	10.0	100.0%	0		1.27s	6,193	197	0
gpt-oss-120b	9.8	10.0	100.0%	0		6.91s	6,514	287	1,083

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Mercury 2	3.0	10.0	0.0%	0		548ms	213	19	0
gpt-oss-120b	3.0	10.0	0.0%	0		26.51s	312	3,101	3,758

مقارنة سريعة

تبديل زوج المقارنة

gpt-oss-120bmediumمتاح مجانًاvsQwen3.5-Flashnone gpt-oss-120bmediumمتاح مجانًاvsGLM 5V Turbonone Seed-2.0-Litenonevsgpt-oss-120bmediumمتاح مجانًا gpt-oss-120bmediumمتاح مجانًاvsGLM 5.1none DeepSeek V4 Prononevsgpt-oss-120bmediumمتاح مجانًا gpt-oss-120bmediumمتاح مجانًاvsQwen3.5 Plus 2026-04-20none Mercury 2nonevsQwen3 Coder Nextmedium gpt-oss-120bmediumمتاح مجانًاvsQwen3.5-35B-A3Bnone Mercury 2nonevsGLM 4.7 Flashmedium gpt-oss-120bmediumمتاح مجانًاvsQwen3.5-27Bnone gpt-oss-120bmediumمتاح مجانًاvsQwen3.6 27Bnone DeepSeek V4 Prohighvsgpt-oss-120bmediumمتاح مجانًا