مقارنة benchmark بين North Mini Code و GLM 5.1: يتقدم North Mini Code في متوسط النتيجة بـ 5.8 مقابل 5.6. لدى North Mini Code تكلفة benchmark أقل عند $0.000 مقابل $0.058. GLM 5.1 أسرع عند 4.10s مقابل 106.18s، مع معدلات نجاح 50.8% مقابل 41.3%.
النموذج الموصى به: GLM 5.1 - Its score stays close to the best score here (5.6 vs 5.8), while responding about 25.9x faster than North Mini Code.
تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-06-18
8.5درجة النجاح من المحاولة الأولى: 10.0 تعني عدم وجود إخفاقات قابلة لإعادة المحاولة من واجهة API الهدف أو حدود المعدل قبل النداءات الناجحة؛ الإخفاقات المسجلة تخفض الدرجة.…
10.0درجة النجاح من المحاولة الأولى: 10.0 تعني عدم وجود إخفاقات قابلة لإعادة المحاولة من واجهة API الهدف أو حدود المعدل قبل النداءات الناجحة؛ الإخفاقات المسجلة تخفض الدرجة.…
الاتساق
8.5تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
8.5تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
اختبارات صحيحة
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 9تنسيق إضافي: 2خطأ API: 1زمن الاستجابة (المتوسط)106.18sزمن الاستجابة (الحد الأقصى)357.05sزمن الاستجابة (الإجمالي)2229.70sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 13استدعاء أداة غير صالح: 1زمن الاستجابة (المتوسط)4.10sزمن الاستجابة (الحد الأقصى)32.57sزمن الاستجابة (الإجمالي)86.18sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
معدل النجاح لكل محاولة
50.8%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
41.3%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
اختبارات غير مستقرة
4الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
4الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
إجمالي مرات التشغيل
55إجمالي مرات التشغيل…
63إجمالي مرات التشغيل…
التكلفة لكل نتيجة
0.000يعرض متوسط التكلفة لكل إجابة صحيحة في المعيار بالسنت (الأقل أفضل).…
0.843يعرض متوسط التكلفة لكل إجابة صحيحة في المعيار بالسنت (الأقل أفضل).…
إجمالي التكلفة
$0.000إجمالي التكلفة (السعر الحالي)…
$0.058إجمالي التكلفة (السعر الحالي)…
سعر الإدخال
$0.000 / 1Mسعر الإدخال…
$0.980 / 1Mسعر الإدخال…
سعر الإخراج
$0.000 / 1Mسعر الإخراج…
$3.080 / 1Mسعر الإخراج…
إجمالي رموز الإدخال
32,891إجمالي رموز الإدخال…
47,133إجمالي رموز الإدخال…
رموز الإخراج
424,772رموز الإخراج…
3,754رموز الإخراج…
رموز الاستدلال
1,021,489رموز الاستدلال…
0رموز الاستدلال…
زمن الاستجابة (المتوسط)
106.18sزمن الاستجابة (المتوسط)…
4.10sزمن الاستجابة (المتوسط)…
زمن الاستجابة (الحد الأقصى)
357.05sزمن الاستجابة (الحد الأقصى)…
32.57sزمن الاستجابة (الحد الأقصى)…
زمن الاستجابة (الإجمالي)
2229.70sزمن الاستجابة (الإجمالي)…
86.18sزمن الاستجابة (الإجمالي)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
75.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.تنسيق إضافي: 1زمن الاستجابة (المتوسط)64.79sزمن الاستجابة (الحد الأقصى)230.24sزمن الاستجابة (الإجمالي)259.15sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
6.3تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
25.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
2الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 4زمن الاستجابة (المتوسط)2.11sزمن الاستجابة (الحد الأقصى)3.94sزمن الاستجابة (الإجمالي)8.46sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
4.9تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
33.3%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
2الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)320.43sزمن الاستجابة (الحد الأقصى)357.05sزمن الاستجابة (الإجمالي)961.28sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
9.7تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)4.96sزمن الاستجابة (الحد الأقصى)9.79sزمن الاستجابة (الإجمالي)14.89sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
1.6تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
33.3%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.تنسيق إضافي: 1زمن الاستجابة (المتوسط)323.07sزمن الاستجابة (الحد الأقصى)323.07sزمن الاستجابة (الإجمالي)323.07sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
2.1تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
33.3%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.استدعاء أداة غير صالح: 1زمن الاستجابة (المتوسط)32.57sزمن الاستجابة (الحد الأقصى)32.57sزمن الاستجابة (الإجمالي)32.57sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)24.06sزمن الاستجابة (الحد الأقصى)26.90sزمن الاستجابة (الإجمالي)48.13sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.08sزمن الاستجابة (الحد الأقصى)1.62sزمن الاستجابة (الإجمالي)2.15sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
7.2تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
44.4%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 2زمن الاستجابة (المتوسط)71.37sزمن الاستجابة (الحد الأقصى)195.94sزمن الاستجابة (الإجمالي)214.11sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
7.2تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
11.1%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
1الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)1.99sزمن الاستجابة (الحد الأقصى)3.99sزمن الاستجابة (الإجمالي)5.98sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)25.08sزمن الاستجابة (الحد الأقصى)25.08sزمن الاستجابة (الإجمالي)25.08sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)790msزمن الاستجابة (الحد الأقصى)790msزمن الاستجابة (الإجمالي)790msيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)15.43sزمن الاستجابة (الحد الأقصى)28.25sزمن الاستجابة (الإجمالي)30.85sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)1.98sزمن الاستجابة (الحد الأقصى)2.28sزمن الاستجابة (الإجمالي)3.97sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 3زمن الاستجابة (المتوسط)19.70sزمن الاستجابة (الحد الأقصى)36.03sزمن الاستجابة (الإجمالي)59.10sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
66.7%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)1.45sزمن الاستجابة (الحد الأقصى)2.09sزمن الاستجابة (الإجمالي)4.36sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)3.93sزمن الاستجابة (الحد الأقصى)3.93sزمن الاستجابة (الإجمالي)3.93sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
100.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.لا توجد إجابات فاشلة.زمن الاستجابة (المتوسط)10.68sزمن الاستجابة (الحد الأقصى)10.68sزمن الاستجابة (الإجمالي)10.68sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.خطأ API: 1زمن الاستجابة (المتوسط)305.02sزمن الاستجابة (الحد الأقصى)305.02sزمن الاستجابة (الإجمالي)305.02sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…
10.0تعكس درجة الاتساق ثبات النتائج بين التشغيلات (10 = ثابت جدا حتى لو كان خطأ بشكل ثابت).…
0.0%معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التشغيلات.…
0الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).…
يعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.إجابة خاطئة: 1زمن الاستجابة (المتوسط)2.34sزمن الاستجابة (الحد الأقصى)2.34sزمن الاستجابة (الإجمالي)2.34sيعد الاختبار ناجحا بالكامل فقط إذا نجحت كل تشغيلاته.…