AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com
#140

Cobuddy

Baidu रिलीज़: 2026-05-06 परीक्षण किया गया: 2026-06-04 13:47 baidu/cobuddy::medium

सारांश

Cobuddy AI BENCHY पर 4.9 स्कोर करता है और #140 पर है। इसकी reliability 10.0, pass rate 47.6%, कुल लागत $0.000, और औसत response time 39.90s है।

Cobuddy को अलग क्या बनाता है: यह निर्देश पालन में सबसे अलग दिखता है, जहाँ इसकी रैंक #1 है; जबकि डेटा पार्सिंग और निष्कर्षण इसकी सबसे कमजोर जगह है, जहाँ यह #12 पर है। इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है। यह असामान्य रूप से अधिक reasoning tokens इस्तेमाल करता है, जिससे धीमे या महंगे runs समझ में आ सकते हैं।

संगति

7.5

कुल आउटपुट टोकन

118,380

कुल इनपुट टोकन

37,449

इनपुट कीमत

$0.000 / 1M

आउटपुट कीमत

$0.000 / 1M

सही परीक्षण

गलत टेस्ट: 14

प्रति प्रयास पास दर: 47.6%

अस्थिर टेस्ट

6

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

39.90s

प्रतिक्रिया समय (अधिकतम): 309.02s

प्रतिक्रिया समय (कुल): 797.98s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#140 Cobuddy

medium
No endpoints found for baidu/cobuddy:free.
लागत
$0.000
समय
0.1s
टोकन
0 tok

रन इतिहास

परीक्षण किया गया स्कोर विश्वसनीयता सही परीक्षण कुल लागत तुलना करें
2026-06-04 13:47 नया टेस्ट जोड़ा गया 5.6 10.0 $0.000 वर्तमान रन
2026-05-22 00:23 सूट बदला गया 5.7 9.9 $0.000 तुलना करें
2026-05-06 11:30 पहला दर्ज रन 6.0 9.9 $0.000 तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रनस्कोरसंगतिविश्वसनीयतासही परीक्षणअस्थिर टेस्टकुल आउटपुट टोकनकुल इनपुट टोकनकुल लागतप्रतिक्रिया समय (औसत)
2026-06-04 13:47 · वर्तमान रन4.97.510.07/216118,38037,449$0.00039.90s
2026-05-06 11:30 · पहला दर्ज रन6.07.69.97/18588,2200$0.00035.89s
अंतर-1.1-0.1+0.10+1+30160+37449$0.000+4010ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

कीमत का इतिहास

OpenRouter से इस मॉडल का ऐतिहासिक मूल्य डेटा।

तारीख इनपुट कीमत आउटपुट कीमत
2026-06-04 15:40 $0.000 / 1M $0.000 / 1M

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

श्रेणी स्कोर संगति सही परीक्षण
एंटी-एआई ट्रिक्स 8.7 7.9
कोडिंग 3.7 6.7
संयुक्त 3.0 10.0
डेटा पार्सिंग और निष्कर्षण 6.3 5.8
डोमेन-विशिष्ट 2.9 4.4
Samanya Buddhimatta 4.2 9.9
निर्देश पालन 9.8 10.0
पहेली समाधान 3.6 7.2
टूल कॉलिंग 10.0 10.0
सामान्य ज्ञान 3.0 10.0

तुलना किए गए मॉडल