AI BENCHY
Advertise here
#19

Gemini 3 PRO Preview

Google रिलीज़: 2025-11-18 परीक्षण किया गया: 2026-05-22 00:29 google/gemini-3-pro-preview::medium

सारांश

Gemini 3 PRO Preview AI BENCHY पर 8.1 स्कोर करता है और #19 पर है। इसकी reliability लागू नहीं, pass rate 73.7%, कुल लागत $0.197, और औसत response time 9.06s है।

संग्रहीत मॉडल: इस मॉडल को अब अपडेट नहीं किया जाएगा और नए परीक्षणों में टेस्ट नहीं किया जाएगा।

संगति

10.0

विश्वसनीयता

लागू नहीं

कुल आउटपुट टोकन

11,592

कुल इनपुट टोकन

0

इनपुट कीमत

$0.000 / 1M

आउटपुट कीमत

$0.000 / 1M

सही परीक्षण

गलत टेस्ट: 5

प्रति प्रयास पास दर: 73.7%

अस्थिर टेस्ट

0

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

9.06s

प्रतिक्रिया समय (अधिकतम): 26.24s

प्रतिक्रिया समय (कुल): 90.58s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#19 Gemini 3 PRO Preview

medium
No endpoints found for google/gemini-3-pro-preview.
लागत
$0.000
समय
0.1s
टोकन
0 tok

रन इतिहास

परीक्षण किया गया स्कोर विश्वसनीयता सही परीक्षण कुल लागत तुलना करें
2026-06-04 14:03 नया टेस्ट जोड़ा गया 7.6 लागू नहीं $0.385 तुलना करें
2026-05-22 00:29 सूट बदला गया 8.1 लागू नहीं $0.197 वर्तमान रन
2026-04-11 01:44 पहला दर्ज रन 8.4 लागू नहीं $0.197 तुलना करें

इस रन में अलग बेंचमार्क सूट इस्तेमाल हुआ था। ऐतिहासिक बदलाव पढ़ते समय सूट बदलाव को ध्यान में रखें।

रन तुलना

रनस्कोरसंगतिविश्वसनीयतासही परीक्षणअस्थिर टेस्टकुल आउटपुट टोकनकुल इनपुट टोकनकुल लागतप्रतिक्रिया समय (औसत)
2026-05-22 00:29 · सूट बदला गया8.110.0लागू नहीं14/19011,5920$0.1979.06s
2026-04-11 01:44 · पहला दर्ज रन8.410.0लागू नहीं14/18011,5920$0.1979.06s
अंतर-0.30.0+1000$0.0000ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

श्रेणी स्कोर संगति सही परीक्षण
एंटी-एआई ट्रिक्स 10.0 10.0
कोडिंग 3.0 10.0
संयुक्त 3.0 10.0
डेटा पार्सिंग और निष्कर्षण 10.0 10.0
डोमेन-विशिष्ट 5.3 10.0
Samanya Buddhimatta 10.0 10.0
निर्देश पालन 9.8 10.0
पहेली समाधान 10.0 10.0
टूल कॉलिंग 10.0 10.0
सामान्य ज्ञान 0.0 0.0

तुलना किए गए मॉडल