नेविगेशन
AI BENCHY
Your ad here

AI BENCHY तुलना

तुलना किए गए मॉडल

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-04-16

मेट्रिक Nemotron 3 Super Nemotron 3 Super medium रिलीज़: 2026-03-11 निःशुल्क उपलब्ध Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium रिलीज़: 2026-02-24 Elephant Elephant medium रिलीज़: 2026-04-14 gpt-oss-120b gpt-oss-120b medium रिलीज़: 2025-08-05 निःशुल्क उपलब्ध
स्कोर 6.7 8.1 5.2 5.8
रैंक #50 #19 #79 #67
संगति 8.7 8.6 9.6 7.2
सही परीक्षण
प्रति प्रयास पास दर 55.6% 79.6% 29.6% 51.9%
अस्थिर टेस्ट 3 3 1 6
कुल रन 52 54 54 54
प्रति परिणाम लागत 0.000 4.060 0.000 0.144
कुल लागत $0.000 $0.528 $0.000 $0.011
???? ??? $0.100 / 1M $0.260 / 1M $0.000 / 1M $0.039 / 1M
????? ??? $0.500 / 1M $2.080 / 1M $0.000 / 1M $0.190 / 1M
आउटपुट टोकन 11,947 17,635 2,596 13,493
रीजनिंग टोकन 29,768 162,668 0 36,879
प्रतिक्रिया समय (औसत) 19.06s 31.38s 1.27s 16.08s
प्रतिक्रिया समय (अधिकतम) 87.80s 119.29s 3.70s 50.92s
प्रतिक्रिया समय (कुल) 305.04s 564.84s 22.82s 176.88s

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Nemotron 3 Super 10.0 10.0 100.0% 0 10.08s 1,776 3,345
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 9.75s 269 16,835
Elephant 6.6 10.0 50.0% 0 1.19s 815 0
gpt-oss-120b 6.7 9.9 50.0% 0 10.21s 3,518 2,177
कोडिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Nemotron 3 Super 3.0 10.0 0.0% 0 0ms 0 0
Qwen3.5-122B-A10B 4.7 1.6 66.7% 1 70.98s 322 10,694
Elephant 5.1 3.3 33.3% 1 1.30s 365 0
gpt-oss-120b 4.3 1.1 66.7% 1 26.33s 228 2,549
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Nemotron 3 Super 10.0 10.0 100.0% 0 87.80s 2,021 9,996
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 107.79s 483 11,337
Elephant 3.0 10.0 0.0% 0 3.70s 562 0
gpt-oss-120b 10.0 10.0 100.0% 0 31.18s 694 5,072
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Nemotron 3 Super 10.0 10.0 100.0% 0 18.16s 877 2,607
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 23.41s 270 16,558
Elephant 6.5 10.0 50.0% 0 979ms 246 0
gpt-oss-120b 6.4 5.9 66.7% 1 1.98s 241 1,114
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Nemotron 3 Super 2.9 4.4 22.2% 2 16.19s 5,255 6,072
Qwen3.5-122B-A10B 2.9 7.2 11.1% 1 63.40s 15,537 64,889
Elephant 3.0 10.0 0.0% 0 925ms 24 0
gpt-oss-120b 2.9 4.4 22.2% 2 50.92s 6,784 20,606
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Nemotron 3 Super 3.8 9.9 0.0% 0 27.86s 104 1,149
Qwen3.5-122B-A10B 3.4 2.2 33.3% 1 34.11s 66 7,592
Elephant 4.3 10.0 0.0% 0 920ms 105 0
gpt-oss-120b 4.3 10.0 0.0% 0 7.90s 107 387
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Nemotron 3 Super 7.2 6.5 66.7% 1 7.72s 1,042 2,479
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 9.88s 77 7,372
Elephant 9.8 10.0 100.0% 0 987ms 82 0
gpt-oss-120b 9.9 10.0 100.0% 0 7.63s 126 1,799
पहेली समाधान स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Nemotron 3 Super 3.5 9.8 0.0% 0 8.39s 602 2,151
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 17.18s 289 26,165
Elephant 3.7 10.0 0.0% 0 867ms 166 0
gpt-oss-120b 3.2 4.7 22.2% 2 11.80s 1,508 2,092
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Nemotron 3 Super 10.0 10.0 100.0% 0 39.75s 270 1,969
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 4.60s 322 1,226
Elephant 3.0 10.0 0.0% 0 2.83s 231 0
gpt-oss-120b 9.8 10.0 100.0% 0 6.91s 287 1,083

त्वरित तुलना

तुलना जोड़ी बदलें