التنقل
AI BENCHY
Advertise here

AI BENCHY Compare

Inception: Mercury 2 vs OpenAI: GPT-5.4 Nano

الملخص

مقارنة benchmark بين Mercury 2 و GPT-5.4 Nano: متوسط النتيجة متقارب جدًا عند 7.5 مقابل 7.5. لدى Mercury 2 تكلفة benchmark أقل عند $0.058 مقابل $0.107. Mercury 2 أسرع عند 2.24s مقابل 11.95s، مع معدلات نجاح 54.0% مقابل 63.5%.

النموذج الموصى به: Mercury 2 - It has the best score here (7.5), while costing about 1.8x less than GPT-5.4 Nano.

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-06-12

المقياس Mercury 2 Mercury 2 medium الإصدار: 2026-02-24 GPT-5.4 Nano GPT-5.4 Nano medium الإصدار: 2026-03-17
النتيجة 7.5 7.5
الترتيب #46 #48
الموثوقية 10.0 10.0
الاتساق 8.8 8.4
اختبارات صحيحة
معدل النجاح لكل محاولة 54.0% 63.5%
اختبارات غير مستقرة 3 4
إجمالي مرات التشغيل 63 63
التكلفة لكل نتيجة 0.578 0.969
إجمالي التكلفة $0.058 $0.107
سعر الإدخال $0.250 / 1M $0.200 / 1M
سعر الإخراج $0.750 / 1M $1.250 / 1M
إجمالي رموز الإدخال 35,116 35,434
رموز الإخراج 4,048 3,014
رموز الاستدلال 61,219 76,520
زمن الاستجابة (المتوسط) 2.24s 11.95s
زمن الاستجابة (الحد الأقصى) 14.63s 94.06s
زمن الاستجابة (الإجمالي) 44.72s 250.98s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#46 Mercury 2

medium
Cost
$0.002
Time
2.1s
Tokens
1,702 tok

#48 GPT-5.4 Nano

medium
Cost
$0.007
Time
24.6s
Tokens
4,943 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإدخال رموز الإخراج رموز الاستدلال
Mercury 2 6.9 9.9 50.0% 0 1.12s 554 2,546 2,609
GPT-5.4 Nano 8.3 10.0 75.0% 0 4.52s 606 683 2,254
البرمجة النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإدخال رموز الإخراج رموز الاستدلال
Mercury 2 8.2 7.7 77.8% 1 2.04s 7,065 296 11,328
GPT-5.4 Nano 6.1 4.7 66.7% 2 19.12s 7,305 516 20,778
مجمّع النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإدخال رموز الإخراج رموز الاستدلال
Mercury 2 10.0 10.0 100.0% 0 3.28s 12,909 268 4,887
GPT-5.4 Nano 9.8 10.0 100.0% 0 24.13s 12,345 349 5,719
تحليل البيانات واستخراجها النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإدخال رموز الإخراج رموز الاستدلال
Mercury 2 7.3 5.9 83.3% 1 1.11s 6,234 183 1,656
GPT-5.4 Nano 10.0 10.0 100.0% 0 2.54s 7,140 234 516
خاص بالمجال النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإدخال رموز الإخراج رموز الاستدلال
Mercury 2 2.9 7.2 11.1% 1 6.48s 695 41 30,754
GPT-5.4 Nano 5.9 7.2 55.6% 1 38.18s 619 60 43,325
الذكاء العام النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإدخال رموز الإخراج رموز الاستدلال
Mercury 2 4.8 10.0 0.0% 0 821ms 456 137 542
GPT-5.4 Nano 4.5 10.0 0.0% 0 4.15s 477 179 443
اتباع التعليمات النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإدخال رموز الإخراج رموز الاستدلال
Mercury 2 10.0 10.0 100.0% 0 1.07s 340 14 958
GPT-5.4 Nano 9.8 10.0 100.0% 0 1.88s 660 95 521
حل الألغاز النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإدخال رموز الإخراج رموز الاستدلال
Mercury 2 5.4 10.0 33.3% 0 949ms 601 361 2,781
GPT-5.4 Nano 4.1 7.2 22.2% 1 3.79s 642 594 1,408
استدعاء الأدوات النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإدخال رموز الإخراج رموز الاستدلال
Mercury 2 10.0 10.0 100.0% 0 1.89s 6,080 180 1,956
GPT-5.4 Nano 10.0 10.0 100.0% 0 7.71s 5,445 234 382
معلومات عامة النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإدخال رموز الإخراج رموز الاستدلال
Mercury 2 3.0 10.0 0.0% 0 2.58s 182 22 3,748
GPT-5.4 Nano 3.0 10.0 0.0% 0 4.81s 195 70 1,174

مقارنة سريعة

تبديل زوج المقارنة