AI BENCHY Compare

Inception: Mercury 2 vs OpenAI: GPT-5.4 Nano

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-04-29

المقياس	Mercury 2 Mercury 2 none الإصدار: 2026-02-24	GPT-5.4 Nano GPT-5.4 Nano none الإصدار: 2026-03-17

المقياس	Mercury 2 Mercury 2 none الإصدار: 2026-02-24	GPT-5.4 Nano GPT-5.4 Nano none الإصدار: 2026-03-17
النتيجة	4.8	4.5
الترتيب	#121	#128
الموثوقية	غير متاح	غير متاح
الاتساق	9.0	7.1
اختبارات صحيحة
معدل النجاح لكل محاولة	27.8%	31.5%
اختبارات غير مستقرة	2	7
إجمالي مرات التشغيل	54	54
التكلفة لكل نتيجة	0.165	0.448
إجمالي التكلفة	$0.007	$0.009
??? ???????	$0.250 / 1M	$0.200 / 1M
??? ???????	$0.750 / 1M	$1.250 / 1M
رموز الإخراج	1,625	2,762
رموز الاستدلال	0	0
زمن الاستجابة (المتوسط)	613ms	1.40s
زمن الاستجابة (الحد الأقصى)	1.27s	3.84s
زمن الاستجابة (الإجمالي)	11.04s	25.14s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	3.0	10.0	0.0%	0		483ms	286	0
GPT-5.4 Nano	3.5	8.0	16.7%	1		1.18s	800	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	3.6	8.9	0.0%	0		969ms	310	0
GPT-5.4 Nano	7.1	3.7	66.7%	1		1.43s	577	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	3.0	10.0	0.0%	0		606ms	131	0
GPT-5.4 Nano	3.0	10.0	0.0%	0		3.84s	280	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	7.3	5.9	83.3%	1		667ms	180	0
GPT-5.4 Nano	6.5	10.0	50.0%	0		1.11s	219	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	5.3	7.2	44.4%	1		534ms	46	0
GPT-5.4 Nano	2.9	4.4	22.2%	2		926ms	52	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	4.8	10.0	0.0%	0		628ms	159	0
GPT-5.4 Nano	3.8	2.5	33.3%	1		1.31s	180	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	6.5	10.0	50.0%	0		551ms	82	0
GPT-5.4 Nano	5.0	6.8	33.3%	1		787ms	84	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	3.1	10.0	0.0%	0		533ms	234	0
GPT-5.4 Nano	3.7	7.3	22.2%	1		1.29s	348	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mercury 2	10.0	10.0	100.0%	0		1.27s	197	0
GPT-5.4 Nano	10.0	10.0	100.0%	0		3.40s	222	0

مقارنة سريعة

تبديل زوج المقارنة

Mercury 2nonevsQwen3 Coder Nextmedium GPT-5.4 NanononevsQwen3.5-9Bmedium GPT-5.4 NanononevsGLM 4.7 Flashmedium Mercury 2nonevsGLM 4.7 Flashmedium GPT-5.4 NanononevsQwen3 Coder Nextmedium Mercury 2nonevsQwen3.5-9Bmedium Mercury 2nonevsNemotron 3 Nano Omni 30b A3b Reasoningmediumمتاح مجانًا Mercury 2nonevsElephant Alphamedium Mercury 2nonevsMiniMax M2.7medium Nemotron 3 Nano Omni 30b A3b Reasoningmediumمتاح مجانًاvsGPT-5.4 Nanonone GPT-5.4 NanononevsElephant Alphamedium MiniMax M2.7mediumvsGPT-5.4 Nanonone