AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com
#105

Cobuddy

Baidu प्रकाशन: 2026-05-06 चाचणी तारीख: 2026-05-22 00:23 baidu/cobuddy::medium

सारांश

Cobuddy AI BENCHY वर 5.7 स्कोर करते आणि #105 वर आहे. याची reliability 9.9, pass rate 51.7%, एकूण खर्च $0.000, आणि सरासरी response time 39.91s आहे.

Cobuddy खास का आहे: हे अँटी-एआय युक्त्या मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #1 आहे; तर डेटा पार्सिंग आणि निष्कर्षण हा सर्वात कमकुवत भाग आहे, rank #13. या score range साठी एकूण benchmark खर्च असामान्यपणे कमी आहे. हे असामान्यपणे जास्त reasoning tokens वापरते, ज्यामुळे runs हळू किंवा महाग होऊ शकतात.

सुसंगतता

7.0

एकूण आउटपुट टोकन्स

118,185

एकूण इनपुट टोकन्स

0

इनपुट किंमत

$0.000 / 1M

आउटपुट किंमत

$0.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 13

प्रति प्रयत्न पास दर: 51.7%

अस्थिर चाचण्या

7

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

39.91s

प्रतिसाद वेळ (कमाल): 309.02s

प्रतिसाद वेळ (एकूण): 798.21s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#105 Cobuddy

medium
No endpoints found for baidu/cobuddy:free.
खर्च
$0.000
वेळ
0.1s
टोकन्स
0 tok

रन इतिहास

चाचणी तारीख स्कोअर विश्वसनीयता बरोबर चाचण्या एकूण खर्च तुलना करा
2026-06-04 13:47 नवीन चाचणी जोडली 5.6 10.0 $0.000 तुलना करा
2026-05-22 00:23 सूट बदलला 5.7 9.9 $0.000 सध्याची रन
2026-05-06 11:30 पहिली नोंदलेली रन 6.0 9.9 $0.000 तुलना करा

या रनमध्ये वेगळा बेंचमार्क सूट वापरला गेला. ऐतिहासिक बदल वाचताना सूटमधील बदल लक्षात घ्या.

रन तुलना

रनस्कोअरसुसंगतताविश्वसनीयताबरोबर चाचण्याअस्थिर चाचण्याएकूण आउटपुट टोकन्सएकूण इनपुट टोकन्सएकूण खर्चप्रतिसाद वेळ (सरासरी)
2026-05-22 00:23 · सूट बदलला5.77.09.97/207118,1850$0.00039.91s
2026-05-06 11:30 · पहिली नोंदलेली रन6.07.69.97/18588,2200$0.00035.89s
फरक-0.3-0.60.00+2+299650$0.000+4022ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

श्रेणी स्कोअर सुसंगतता बरोबर चाचण्या
अँटी-एआय युक्त्या 8.7 7.9
कोडिंग 4.1 5.1
संयुक्त 3.0 10.0
डेटा पार्सिंग आणि निष्कर्षण 6.3 5.8
डोमेन-विशिष्ट 2.9 4.4
Samanya Buddhimatta 4.2 9.9
सूचनांचे पालन 9.8 10.0
कोडी सोडवणे 3.5 4.4
टूल कॉलिंग 10.0 10.0
सामान्य ज्ञान 3.0 10.0

तुलना केलेली मॉडेल्स