#84

Cobuddy

Baidu प्रकाशन: 2026-05-06 चाचणी तारीख: 2026-05-06 11:30 baidu/cobuddy::medium

सारांश

Cobuddy AI BENCHY वर 6.0 स्कोर करते आणि #84 वर आहे. याची reliability 9.9, pass rate 53.7%, एकूण खर्च $0.000, आणि सरासरी response time 35.89s आहे.

Cobuddy खास का आहे: या score range साठी एकूण benchmark खर्च असामान्यपणे कमी आहे.

स्कोअर

6.0

सुसंगतता

7.6

विश्वसनीयता

9.9

एकूण खर्च (सध्याची किंमत)

$0.000

एकूण आउटपुट टोकन्स

88,220

एकूण इनपुट टोकन्स

इनपुट किंमत

$0.000 / 1M

आउटपुट किंमत

$0.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 11

प्रति प्रयत्न पास दर: 53.7%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

35.89s

प्रतिसाद वेळ (कमाल): 309.02s

प्रतिसाद वेळ (एकूण): 646.00s

चुकीचे उत्तर: 6 सूचनांचे पालन केले नाही: 4 अवैध टूल कॉल: 1

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#84 Cobuddy

medium

No endpoints found for baidu/cobuddy:free.

खर्च: $0.000
वेळ: 0.1s
टोकन्स: 0 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-06-04 13:47 नवीन चाचणी जोडली	5.6	10.0	$0.000	तुलना करा
2026-05-22 00:23 सूट बदलला	5.7	9.9	$0.000	तुलना करा
2026-05-06 11:30 पहिली नोंदलेली रन	6.0	9.9	$0.000	सध्याची रन

रन तुलना

रन	स्कोअर	सुसंगतता	विश्वसनीयता	बरोबर चाचण्या	अस्थिर चाचण्या	एकूण आउटपुट टोकन्स	एकूण इनपुट टोकन्स	एकूण खर्च	प्रतिसाद वेळ (सरासरी)
2026-05-06 11:30 · पहिली नोंदलेली रन	6.0	7.6	9.9	7/18	5	88,220	0	$0.000	35.89s
2026-06-04 13:47 · नवीन चाचणी जोडली	5.6	7.5	10.0	7/21	6	118,380	37,449	$0.000	39.90s
फरक	+0.4	+0.1	-0.1	0	-1	-30160	-37449	$0.000	-4010ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	8.7	7.9
कोडिंग	4.3	1.1
संयुक्त	3.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	6.3	5.8
डोमेन-विशिष्ट	2.9	7.2
Samanya Buddhimatta	4.2	9.9
सूचनांचे पालन	9.8	10.0
कोडी सोडवणे	3.7	6.8
टूल कॉलिंग	10.0	10.0

Cobuddy

Hamster playing table tennis

#84 Cobuddy

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स