नेव्हिगेशन
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

तुलना केलेली मॉडेल्स

AI BENCHY टेस्ट सूटमधून बेंचमार्क या वेळी तयार झाले: 2026-03-12

मेट्रिक GPT-5.3 Chat GPT-5.3 Chat none प्रकाशन: 2026-03-03 GPT-5.4 GPT-5.4 none प्रकाशन: 2026-03-05 GPT-5.4 GPT-5.4 medium प्रकाशन: 2026-03-05
क्रमांक #20 #51 #10
सरासरी स्कोअर 7.3 4.5 8.0
सुसंगतता 8.5 8.9 8.5
प्रति निकाल खर्च 3.163 1.562 6.601
एकूण खर्च $0.317 $0.094 $0.793
बरोबर चाचण्या
प्रति प्रयत्न पास दर 70.8% 41.7% 83.3%
अस्थिर चाचण्या 3 2 3
एकूण रन 48 48 48
आउटपुट टोकन्स 19,272 1,819 1,756
रिझनिंग टोकन्स 0 0 46,642
प्रतिसाद वेळ (सरासरी) 5.96s 1.48s 20.05s
प्रतिसाद वेळ (कमाल) 18.33s 2.89s 100.41s
प्रतिसाद वेळ (एकूण) 95.30s 23.64s 320.87s

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी)

सरासरी स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

सरासरी स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

अँटी-एआय युक्त्या स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.3 Chat 7.3 7.5 77.8% 1 4.72s 3,091 0
GPT-5.4 10.0 7.3 11.1% 1 1.41s 388 0
GPT-5.4 10.0 10.0 100.0% 0 5.02s 216 1,466
संयुक्त स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.3 Chat 10.0 10.0 100.0% 0 11.96s 2,614 0
GPT-5.4 10.0 10.0 0.0% 0 2.89s 291 0
GPT-5.4 10.0 10.0 100.0% 0 20.57s 301 3,543
डेटा पार्सिंग आणि निष्कर्षण स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.3 Chat 9.9 10.0 100.0% 0 2.21s 942 0
GPT-5.4 9.9 10.0 100.0% 0 1.04s 222 0
GPT-5.4 9.9 10.0 100.0% 0 5.32s 234 804
डोमेन-विशिष्ट स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.3 Chat 10.0 4.4 33.3% 2 13.01s 8,264 0
GPT-5.4 4.0 7.2 44.4% 1 1.07s 50 0
GPT-5.4 4.0 7.2 44.4% 1 74.27s 61 34,748
Samanya Buddhimatta स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.3 Chat 4.0 10.0 0.0% 0 1.99s 319 0
GPT-5.4 3.0 9.9 0.0% 0 1.78s 184 0
GPT-5.4 5.0 3.1 33.3% 1 4.92s 145 321
सूचनांचे पालन स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.3 Chat 9.0 10.0 50.0% 0 3.29s 1,455 0
GPT-5.4 5.5 10.0 50.0% 0 1.07s 81 0
GPT-5.4 10.0 10.0 100.0% 0 3.11s 93 897
Puzzle Solving स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.3 Chat 10.0 10.0 100.0% 0 2.93s 1,726 0
GPT-5.4 4.0 9.8 33.3% 0 1.52s 357 0
GPT-5.4 7.0 7.2 88.9% 1 9.13s 442 3,832
टूल कॉलिंग स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.3 Chat 10.0 10.0 100.0% 0 8.36s 861 0
GPT-5.4 10.0 10.0 100.0% 0 2.75s 246 0
GPT-5.4 10.0 10.0 100.0% 0 13.28s 264 1,031

झटपट तुलना

तुलना जोडी बदला