#86

Owl Alpha

Openrouter रिलीज़: 2026-04-30 परीक्षण किया गया: 2026-04-30 17:24 openrouter/owl-alpha::none

(medium) (none)

सारांश

Owl Alpha AI BENCHY पर 6.0 स्कोर करता है और #86 पर है। इसकी reliability 10.0, pass rate 46.3%, कुल लागत $0.000, और औसत response time 7.07s है।

Owl Alpha को अलग क्या बनाता है: यह कोडिंग में सबसे अलग दिखता है, जहाँ इसकी रैंक #1 है; जबकि एंटी-एआई ट्रिक्स इसकी सबसे कमजोर जगह है, जहाँ यह #17 पर है। इस score range के लिए इसकी कुल benchmark लागत असामान्य रूप से कम है।

संग्रहीत मॉडल: इस मॉडल को अब अपडेट नहीं किया जाएगा और नए परीक्षणों में टेस्ट नहीं किया जाएगा।

स्कोर

6.0

संगति

9.1

विश्वसनीयता

10.0

कुल लागत (वर्तमान कीमत)

$0.000

कुल आउटपुट टोकन

1,671

कुल इनपुट टोकन

इनपुट कीमत

$0.000 / 1M

आउटपुट कीमत

$0.000 / 1M

सही परीक्षण

गलत टेस्ट: 11

प्रति प्रयास पास दर: 46.3%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

7.07s

प्रतिक्रिया समय (अधिकतम): 32.27s

प्रतिक्रिया समय (कुल): 127.23s

गलत उत्तर: 7 निर्देशों का पालन नहीं किया: 4

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#86 Owl Alpha

none

Provider returned error

लागत: $0.000
समय: 0.2s
टोकन: 0 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-06-04 14:29 नया टेस्ट जोड़ा गया	5.6	10.0	$0.000	तुलना करें
2026-05-22 00:42 सूट बदला गया	5.7	10.0	$0.000	तुलना करें
2026-04-30 17:24 दोबारा परीक्षण	6.0	10.0	$0.000	वर्तमान रन
2026-04-30 15:31 पहला रन	6.0	10.0	$0.000	तुलना करें

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	3.4	7.9
कोडिंग	10.0	10.0
संयुक्त	3.0	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	10.0
Samanya Buddhimatta	4.3	10.0
निर्देश पालन	6.4	10.0
पहेली समाधान	5.9	7.2
टूल कॉलिंग	10.0	10.0

Owl Alpha

Hamster playing table tennis

#86 Owl Alpha

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

तुलना किए गए मॉडल