AI BENCHY Compare
OpenAI: GPT-5.4 vs Owl Alpha
تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-04-30
| المقياس | GPT-5.4 GPT-5.4 none | Owl Alpha Owl Alpha medium |
|---|---|---|
| النتيجة | 5.9 | 5.8 |
| الترتيب | #89 | #91 |
| الموثوقية | غير متاح | 10.0 |
| الاتساق | 9.1 | 9.5 |
| اختبارات صحيحة | ||
| معدل النجاح لكل محاولة | 42.6% | 40.7% |
| اختبارات غير مستقرة | 2 | 1 |
| إجمالي مرات التشغيل | 54 | 54 |
| التكلفة لكل نتيجة | 1.477 | 0.000 |
| إجمالي التكلفة | $0.104 | $0.000 |
| ??? ??????? | $2.500 / 1M | $0.000 / 1M |
| ??? ??????? | $15.000 / 1M | $0.000 / 1M |
| رموز الإخراج | 2,317 | 1,596 |
| رموز الاستدلال | 0 | 0 |
| زمن الاستجابة (المتوسط) | 1.51s | 11.04s |
| زمن الاستجابة (الحد الأقصى) | 2.95s | 58.63s |
| زمن الاستجابة (الإجمالي) | 27.21s | 198.65s |
الدرجة مقابل التكلفة الإجمالية
زمن الاستجابة (المتوسط)
النتيجة vs زمن الاستجابة (المتوسط)
إجمالي رموز الإخراج
النتيجة vs إجمالي رموز الإخراج
تفصيل الفئات
مقارنة سريعة
تبديل زوج المقارنة
Kimi K2.6nonevsOwl AlphamediumOwl AlphamediumvsQwen3.5-122B-A10BnoneOwl AlphamediumvsQwen3.5 Plus 2026-04-20noneOwl AlphamediumvsMiMo-V2.5-PrononeOwl AlphamediumvsQwen3.6 FlashnoneOwl AlphamediumvsGLM 5.1noneOwl AlphamediumvsMiMo-V2-PrononeDeepSeek V3.2nonevsOwl AlphamediumOwl AlphamediumvsQwen3.5-27BnoneOwl AlphamediumvsQwen3.6 27BnoneDeepSeek V4 PrononevsOwl AlphamediumMistral Small 4mediumvsGPT-5.4none