नेव्हिगेशन
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

तुलना केलेली मॉडेल्स

AI BENCHY टेस्ट सूटमधून बेंचमार्क या वेळी तयार झाले: 2026-04-24

मेट्रिक GPT-5.5 GPT-5.5 medium प्रकाशन: 2026-04-24 GPT-5.4 GPT-5.4 medium प्रकाशन: 2026-03-05 Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium प्रकाशन: 2026-02-19 Claude Opus 4.7 Claude Opus 4.7 medium प्रकाशन: 2026-04-16
स्कोअर 9.0 8.2 9.6 9.2
क्रमांक #5 #18 #2 #3
विश्वसनीयता लागू नाही लागू नाही लागू नाही लागू नाही
सुसंगतता 9.2 8.7 10.0 10.0
बरोबर चाचण्या
प्रति प्रयत्न पास दर 87.0% 79.6% 94.4% 88.9%
अस्थिर चाचण्या 2 3 0 0
एकूण रन 54 54 54 54
प्रति निकाल खर्च 19.226 6.399 3.400 2.790
एकूण खर्च $2.884 $0.832 $0.578 $0.447
???? ??? $5.000 / 1M $2.500 / 1M $2.000 / 1M $5.000 / 1M
????? ??? $30.000 / 1M $15.000 / 1M $12.000 / 1M $25.000 / 1M
आउटपुट टोकन्स 1,920 2,169 1,932 5,375
रिझनिंग टोकन्स 89,632 48,732 40,542 1,341
प्रतिसाद वेळ (सरासरी) 32.75s 18.63s 15.96s 3.53s
प्रतिसाद वेळ (कमाल) 332.10s 100.41s 40.61s 21.45s
प्रतिसाद वेळ (एकूण) 589.59s 335.26s 175.52s 60.03s

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

अँटी-एआय युक्त्या स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.5 10.0 10.0 100.0% 0 4.66s 250 1,335
GPT-5.4 8.3 10.0 75.0% 0 4.11s 240 1,511
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 7.90s 112 3,218
Claude Opus 4.7 8.3 10.0 75.0% 0 1.85s 348 0
कोडिंग स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.5 10.0 10.0 100.0% 0 9.09s 318 1,391
GPT-5.4 10.0 10.0 100.0% 0 13.03s 389 2,045
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 19.88s 405 4,201
Claude Opus 4.7 10.0 10.0 100.0% 0 6.41s 1,141 257
संयुक्त स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.5 10.0 10.0 100.0% 0 19.29s 312 2,841
GPT-5.4 10.0 10.0 100.0% 0 20.57s 301 3,543
Gemini 3.1 Pro Preview 9.5 10.0 100.0% 0 40.61s 432 9,281
Claude Opus 4.7 10.0 10.0 100.0% 0 21.45s 2,369 1,084
डेटा पार्सिंग आणि निष्कर्षण स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.5 10.0 10.0 100.0% 0 4.18s 234 593
GPT-5.4 10.0 10.0 100.0% 0 5.32s 234 804
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 7.72s 279 3,904
Claude Opus 4.7 10.0 10.0 100.0% 0 2.37s 324 0
डोमेन-विशिष्ट स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.5 5.3 7.2 44.4% 1 164.14s 67 79,625
GPT-5.4 5.3 7.2 44.4% 1 74.27s 61 34,748
Gemini 3.1 Pro Preview 7.7 10.0 66.7% 0 32.73s 18 12,424
Claude Opus 4.7 7.7 10.0 66.7% 0 1.17s 51 0
Samanya Buddhimatta स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.5 10.0 10.0 100.0% 0 4.16s 138 223
GPT-5.4 4.7 3.1 33.3% 1 4.92s 145 321
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 11.77s 108 1,179
Claude Opus 4.7 10.0 10.0 100.0% 0 2.87s 256 0
सूचनांचे पालन स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.5 10.0 10.0 100.0% 0 3.36s 93 538
GPT-5.4 10.0 10.0 100.0% 0 3.11s 93 897
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 9.56s 72 2,236
Claude Opus 4.7 10.0 10.0 100.0% 0 1.57s 114 0
कोडी सोडवणे स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.5 8.6 7.9 77.8% 1 6.78s 250 2,254
GPT-5.4 8.2 7.2 88.9% 1 9.13s 442 3,832
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 7.15s 232 3,117
Claude Opus 4.7 10.0 10.0 100.0% 0 2.51s 399 0
टूल कॉलिंग स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
GPT-5.5 10.0 10.0 100.0% 0 10.57s 258 832
GPT-5.4 10.0 10.0 100.0% 0 13.28s 264 1,031
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 23.15s 274 982
Claude Opus 4.7 10.0 10.0 100.0% 0 4.17s 373 0

झटपट तुलना

तुलना जोडी बदला