AI BENCHY
قارن الرسوم البيانية المنهجية
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

#13

Step 3.5 Flash

Stepfun · الإصدار: 2026-02-01 · stepfun/step-3.5-flash::medium

التكلفة لكل نتيجة

0.000

الاتساق

9.1

اختبارات صحيحة

الاختبارات الخاطئة: 6

معدل النجاح لكل محاولة: 68.8%

اختبارات غير مستقرة

2

الاختبارات غير المستقرة لها نتائج مختلطة بين التشغيلات (نجاح واحد على الأقل وفشل واحد على الأقل).

زمن الاستجابة (المتوسط)

29.10s

زمن الاستجابة (الحد الأقصى): 170.45s

زمن الاستجابة (الإجمالي): 290.96s

لم يتبع التعليمات: 3 إجابة خاطئة: 3

الرسوم البيانية

اختر النموذج الأول، ثم انقر على نموذج ثانٍ لفتح صفحة مقارنة جنبًا إلى جنب.

مقارنة سريعة

تفصيل الفئات

الفئة متوسط الدرجة الاتساق اختبارات صحيحة
Anti-AI Tricks 10.0 10.0
Combined 10.0 10.0
Data parsing and extraction 10.0 10.0
Domain specific 4.0 7.2
General Intelligence 6.0 10.0
Instructions following 9.0 6.8
Puzzle Solving 4.0 10.0
Tool Calling 10.0 10.0