AI BENCHY
موازنہ کریں چارٹس
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

#40

Mercury 2

Inception · اجرا: 2026-02-24 · inception/mercury-2::medium

اوسط اسکور

48

فی نتیجہ لاگت

0.726

تسلسل

83

کل لاگت

$0.044

درست ٹیسٹس

6

کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں

غلط ٹیسٹس

9

فی کوشش کامیابی کی شرح: 51.1%

غیر مستحکم ٹیسٹ

3

ردِعمل کا وقت: اوسط 2.47s · کل 34.56s · زیادہ سے زیادہ 14.63s

غلط جواب: 5 ہدایات پر عمل نہیں کیا: 3 API خرابی: 1

اسکور کے لحاظ سے سرفہرست ماڈلز

پہلا ماڈل منتخب کریں، پھر دوسرا ماڈل کلک کریں تاکہ سائیڈ بائی سائیڈ صفحہ کھلے۔

فوری موازنہ

زمرہ وار تفصیل

زمرہ اوسط اسکور تسلسل درست ٹیسٹس
Anti-AI Tricks 73 98 2/3
Combined 100 100 1/1
Data parsing and extraction 55 59 1/2
Domain specific 100 72 0/3
Instructions following 55 100 1/2
Puzzle Solving 17 75 0/3
Tool Calling 100 100 1/1