नेव्हिगेशन
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

तुलना केलेली मॉडेल्स

AI BENCHY टेस्ट सूटमधून बेंचमार्क या वेळी तयार झाले: 2026-04-16

मेट्रिक Nemotron 3 Super Nemotron 3 Super medium प्रकाशन: 2026-03-11 मोफत उपलब्ध Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium प्रकाशन: 2026-02-24 Elephant Elephant medium प्रकाशन: 2026-04-14 gpt-oss-120b gpt-oss-120b medium प्रकाशन: 2025-08-05 मोफत उपलब्ध
स्कोअर 6.7 8.1 5.2 5.8
क्रमांक #50 #19 #79 #67
सुसंगतता 8.7 8.6 9.6 7.2
बरोबर चाचण्या
प्रति प्रयत्न पास दर 55.6% 79.6% 29.6% 51.9%
अस्थिर चाचण्या 3 3 1 6
एकूण रन 52 54 54 54
प्रति निकाल खर्च 0.000 4.060 0.000 0.144
एकूण खर्च $0.000 $0.528 $0.000 $0.011
???? ??? $0.100 / 1M $0.260 / 1M $0.000 / 1M $0.039 / 1M
????? ??? $0.500 / 1M $2.080 / 1M $0.000 / 1M $0.190 / 1M
आउटपुट टोकन्स 11,947 17,635 2,596 13,493
रिझनिंग टोकन्स 29,768 162,668 0 36,879
प्रतिसाद वेळ (सरासरी) 19.06s 31.38s 1.27s 16.08s
प्रतिसाद वेळ (कमाल) 87.80s 119.29s 3.70s 50.92s
प्रतिसाद वेळ (एकूण) 305.04s 564.84s 22.82s 176.88s

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

अँटी-एआय युक्त्या स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Nemotron 3 Super 10.0 10.0 100.0% 0 10.08s 1,776 3,345
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 9.75s 269 16,835
Elephant 6.6 10.0 50.0% 0 1.19s 815 0
gpt-oss-120b 6.7 9.9 50.0% 0 10.21s 3,518 2,177
कोडिंग स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Nemotron 3 Super 3.0 10.0 0.0% 0 0ms 0 0
Qwen3.5-122B-A10B 4.7 1.6 66.7% 1 70.98s 322 10,694
Elephant 5.1 3.3 33.3% 1 1.30s 365 0
gpt-oss-120b 4.3 1.1 66.7% 1 26.33s 228 2,549
संयुक्त स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Nemotron 3 Super 10.0 10.0 100.0% 0 87.80s 2,021 9,996
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 107.79s 483 11,337
Elephant 3.0 10.0 0.0% 0 3.70s 562 0
gpt-oss-120b 10.0 10.0 100.0% 0 31.18s 694 5,072
डेटा पार्सिंग आणि निष्कर्षण स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Nemotron 3 Super 10.0 10.0 100.0% 0 18.16s 877 2,607
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 23.41s 270 16,558
Elephant 6.5 10.0 50.0% 0 979ms 246 0
gpt-oss-120b 6.4 5.9 66.7% 1 1.98s 241 1,114
डोमेन-विशिष्ट स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Nemotron 3 Super 2.9 4.4 22.2% 2 16.19s 5,255 6,072
Qwen3.5-122B-A10B 2.9 7.2 11.1% 1 63.40s 15,537 64,889
Elephant 3.0 10.0 0.0% 0 925ms 24 0
gpt-oss-120b 2.9 4.4 22.2% 2 50.92s 6,784 20,606
Samanya Buddhimatta स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Nemotron 3 Super 3.8 9.9 0.0% 0 27.86s 104 1,149
Qwen3.5-122B-A10B 3.4 2.2 33.3% 1 34.11s 66 7,592
Elephant 4.3 10.0 0.0% 0 920ms 105 0
gpt-oss-120b 4.3 10.0 0.0% 0 7.90s 107 387
सूचनांचे पालन स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Nemotron 3 Super 7.2 6.5 66.7% 1 7.72s 1,042 2,479
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 9.88s 77 7,372
Elephant 9.8 10.0 100.0% 0 987ms 82 0
gpt-oss-120b 9.9 10.0 100.0% 0 7.63s 126 1,799
कोडी सोडवणे स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Nemotron 3 Super 3.5 9.8 0.0% 0 8.39s 602 2,151
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 17.18s 289 26,165
Elephant 3.7 10.0 0.0% 0 867ms 166 0
gpt-oss-120b 3.2 4.7 22.2% 2 11.80s 1,508 2,092
टूल कॉलिंग स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Nemotron 3 Super 10.0 10.0 100.0% 0 39.75s 270 1,969
Qwen3.5-122B-A10B 10.0 10.0 100.0% 0 4.60s 322 1,226
Elephant 3.0 10.0 0.0% 0 2.83s 231 0
gpt-oss-120b 9.8 10.0 100.0% 0 6.91s 287 1,083

झटपट तुलना

तुलना जोडी बदला