AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs OpenAI: gpt-oss-120b

AI BENCHY टेस्ट सूटमधून बेंचमार्क या वेळी तयार झाले: 2026-04-29

मेट्रिक	Claude Opus 4.6 Claude Opus 4.6 medium प्रकाशन: 2026-02-05	gpt-oss-120b gpt-oss-120b medium प्रकाशन: 2025-08-05 मोफत उपलब्ध

मेट्रिक	Claude Opus 4.6 Claude Opus 4.6 medium प्रकाशन: 2026-02-05	gpt-oss-120b gpt-oss-120b medium प्रकाशन: 2025-08-05 मोफत उपलब्ध
स्कोअर	7.6	5.8
क्रमांक	#49	#88
विश्वसनीयता	लागू नाही	लागू नाही
सुसंगतता	9.1	7.2
बरोबर चाचण्या
प्रति प्रयत्न पास दर	70.4%	51.9%
अस्थिर चाचण्या	2	6
एकूण रन	54	54
प्रति निकाल खर्च	12.047	0.144
एकूण खर्च	$1.446	$0.011
???? ???	$5.000 / 1M	$0.000 / 1M
????? ???	$25.000 / 1M	$0.000 / 1M
आउटपुट टोकन्स	29,829	13,493
रिझनिंग टोकन्स	18,938	36,879
प्रतिसाद वेळ (सरासरी)	21.08s	16.08s
प्रतिसाद वेळ (कमाल)	83.40s	50.92s
प्रतिसाद वेळ (एकूण)	231.84s	176.88s

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

अँटी-एआय युक्त्या	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	986	1,071
gpt-oss-120b	6.7	9.9	50.0%	0		10.21s	3,518	2,177

कोडिंग	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Opus 4.6	10.0	10.0	100.0%	0		23.11s	3,486	1,504
gpt-oss-120b	4.3	1.1	66.7%	1		26.33s	228	2,549

संयुक्त	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	694	5,072

डेटा पार्सिंग आणि निष्कर्षण	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	691	757
gpt-oss-120b	6.4	5.9	66.7%	1		1.98s	241	1,114

डोमेन-विशिष्ट	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	14,642	8,687
gpt-oss-120b	2.9	4.4	22.2%	2		50.92s	6,784	20,606

Samanya Buddhimatta	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
gpt-oss-120b	4.3	10.0	0.0%	0		7.90s	107	387

सूचनांचे पालन	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
gpt-oss-120b	9.9	10.0	100.0%	0		7.63s	126	1,799

कोडी सोडवणे	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Opus 4.6	7.7	10.0	66.7%	0		4.60s	531	637
gpt-oss-120b	3.2	4.7	22.2%	2		11.80s	1,508	2,092

टूल कॉलिंग	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
gpt-oss-120b	9.8	10.0	100.0%	0		6.91s	287	1,083

झटपट तुलना

तुलना जोडी बदला

Kimi K2.6nonevsgpt-oss-120bmediumमोफत उपलब्ध gpt-oss-120bmediumमोफत उपलब्धvsQwen3.5-27Bnone Claude Opus 4.6mediumvsGPT-5.3 Chatnone gpt-oss-120bmediumमोफत उपलब्धvsQwen3.5 Plus 2026-04-20none gpt-oss-120bmediumमोफत उपलब्धvsMiMo-V2.5-Pronone gpt-oss-120bmediumमोफत उपलब्धvsQwen3.6 Flashnone gpt-oss-120bmediumमोफत उपलब्धvsQwen3.5-122B-A10Bnone gpt-oss-120bmediumमोफत उपलब्धvsMiMo-V2-Pronone DeepSeek V3.2nonevsgpt-oss-120bmediumमोफत उपलब्ध gpt-oss-120bmediumमोफत उपलब्धvsQwen3.6 27Bnone Claude Opus 4.6mediumvsDeepSeek V4 Flashhigh DeepSeek V4 Prononevsgpt-oss-120bmediumमोफत उपलब्ध