AI BENCHY तुलना

OpenAI: gpt-oss-120b vs Owl Alpha

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-04-30

मेट्रिक	gpt-oss-120b gpt-oss-120b medium रिलीज़: 2025-08-05 निःशुल्क उपलब्ध	Owl Alpha Owl Alpha none रिलीज़: 2026-04-30

मेट्रिक	gpt-oss-120b gpt-oss-120b medium रिलीज़: 2025-08-05 निःशुल्क उपलब्ध	Owl Alpha Owl Alpha none रिलीज़: 2026-04-30
स्कोर	5.8	6.0
रैंक	#89	#86
विश्वसनीयता	लागू नहीं	10.0
संगति	7.2	9.1
सही परीक्षण
प्रति प्रयास पास दर	51.9%	46.3%
अस्थिर टेस्ट	6	2
कुल रन	54	54
प्रति परिणाम लागत	0.144	0.000
कुल लागत	$0.011	$0.000
???? ???	$0.000 / 1M	$0.000 / 1M
????? ???	$0.000 / 1M	$0.000 / 1M
आउटपुट टोकन	13,493	1,671
रीजनिंग टोकन	36,879	0
प्रतिक्रिया समय (औसत)	16.08s	7.07s
प्रतिक्रिया समय (अधिकतम)	50.92s	32.27s
प्रतिक्रिया समय (कुल)	176.88s	127.23s

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
gpt-oss-120b	6.7	9.9	50.0%	0		10.21s	3,518	2,177
Owl Alpha	3.4	7.9	16.7%	1		2.78s	57	0

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
gpt-oss-120b	4.3	1.1	66.7%	1		26.33s	228	2,549
Owl Alpha	10.0	10.0	100.0%	0		32.27s	450	0

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	694	5,072
Owl Alpha	3.0	10.0	0.0%	0		21.74s	315	0

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
gpt-oss-120b	6.4	5.9	66.7%	1		1.98s	241	1,114
Owl Alpha	10.0	10.0	100.0%	0		3.60s	246	0

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
gpt-oss-120b	2.9	4.4	22.2%	2		50.92s	6,784	20,606
Owl Alpha	5.3	10.0	33.3%	0		3.00s	27	0

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
gpt-oss-120b	4.3	10.0	0.0%	0		7.90s	107	387
Owl Alpha	4.3	10.0	0.0%	0		4.61s	80	0

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
gpt-oss-120b	9.9	10.0	100.0%	0		7.63s	126	1,799
Owl Alpha	6.4	10.0	50.0%	0		2.63s	63	0

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
gpt-oss-120b	3.2	4.7	22.2%	2		11.80s	1,508	2,092
Owl Alpha	5.9	7.2	55.6%	1		4.43s	202	0

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
gpt-oss-120b	9.8	10.0	100.0%	0		6.91s	287	1,083
Owl Alpha	10.0	10.0	100.0%	0		22.78s	231	0

त्वरित तुलना

तुलना जोड़ी बदलें

Kimi K2.6nonevsgpt-oss-120bmediumनिःशुल्क उपलब्ध gpt-oss-120bmediumनिःशुल्क उपलब्धvsQwen3.5-27Bnone gpt-oss-120bmediumनिःशुल्क उपलब्धvsQwen3.5 Plus 2026-04-20none gpt-oss-120bmediumनिःशुल्क उपलब्धvsMiMo-V2.5-Pronone gpt-oss-120bmediumनिःशुल्क उपलब्धvsQwen3.6 Flashnone gpt-oss-120bmediumनिःशुल्क उपलब्धvsQwen3.5-122B-A10Bnone gpt-oss-120bmediumनिःशुल्क उपलब्धvsMiMo-V2-Pronone DeepSeek V3.2nonevsgpt-oss-120bmediumनिःशुल्क उपलब्ध Owl AlphanonevsLaguna Xs.2mediumनिःशुल्क उपलब्ध gpt-oss-120bmediumनिःशुल्क उपलब्धvsQwen3.6 27Bnone DeepSeek V4 Prononevsgpt-oss-120bmediumनिःशुल्क उपलब्ध gpt-oss-120bmediumनिःशुल्क उपलब्धvsGLM 4.7 Flashnone