#86

Owl Alpha

Openrouter रिलीज़: 2026-04-30 परीक्षण किया गया: 2026-04-30 15:31 openrouter/owl-alpha::none

(medium) (none)

सारांश

Owl Alpha AI BENCHY पर 6.0 स्कोर करता है और #86 पर है। इसकी reliability 10.0, pass rate 46.3%, कुल लागत $0.000, और औसत response time 7.06s है।

Owl Alpha को अलग क्या बनाता है: यह कोडिंग में सबसे अलग दिखता है, जहाँ इसकी रैंक #1 है; जबकि एंटी-एआई ट्रिक्स इसकी सबसे कमजोर जगह है, जहाँ यह #17 पर है। इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है।

संग्रहीत मॉडल: इस मॉडल को अब अपडेट नहीं किया जाएगा और नए परीक्षणों में टेस्ट नहीं किया जाएगा।

स्कोर

6.0

संगति

9.1

विश्वसनीयता

10.0

कुल लागत (वर्तमान कीमत)

$0.000

कुल आउटपुट टोकन

1,671

कुल इनपुट टोकन

इनपुट कीमत

$0.000 / 1M

आउटपुट कीमत

$0.000 / 1M

सही परीक्षण

गलत टेस्ट: 11

प्रति प्रयास पास दर: 46.3%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

7.06s

प्रतिक्रिया समय (अधिकतम): 32.27s

प्रतिक्रिया समय (कुल): 127.00s

गलत उत्तर: 7 निर्देशों का पालन नहीं किया: 4

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#86 Owl Alpha

none

Provider returned error

लागत: $0.000
समय: 0.2s
टोकन: 0 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-06-04 14:29 नया टेस्ट जोड़ा गया	5.6	10.0	$0.000	तुलना करें
2026-05-22 00:42 सूट बदला गया	5.7	10.0	$0.000	तुलना करें
2026-04-30 17:24 दोबारा परीक्षण	6.0	10.0	$0.000	तुलना करें
2026-04-30 15:31 पहला रन	6.0	10.0	$0.000	वर्तमान रन

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल इनपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-04-30 15:31 · पहला रन	6.0	9.1	10.0	7/18	2	1,671	0	$0.000	7.06s
2026-06-04 14:29 · नया टेस्ट जोड़ा गया	5.6	9.2	10.0	7/21	1	5,913	42,283	$0.000	9.88s
अंतर	+0.4	-0.1	0.0	0	+1	-4242	-42283	$0.000	-2820ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	3.4	7.9
कोडिंग	10.0	10.0
संयुक्त	3.0	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	10.0
Samanya Buddhimatta	4.3	10.0
निर्देश पालन	6.4	10.0
पहेली समाधान	5.9	7.2
टूल कॉलिंग	10.0	10.0

Owl Alpha

Hamster playing table tennis

#86 Owl Alpha

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

तुलना किए गए मॉडल