#12

Gemini 3.1 Flash Lite Preview

Google रिलीज़: 2026-03-03 परीक्षण किया गया: 2026-04-10 23:27 google/gemini-3.1-flash-lite-preview::high

(high) (medium) (low) (none)

सारांश

Gemini 3.1 Flash Lite Preview AI BENCHY पर 8.4 स्कोर करता है और #12 पर है। इसकी reliability लागू नहीं, pass rate 77.1%, कुल लागत $2.310, और औसत response time 68.83s है।

Gemini 3.1 Flash Lite Preview को अलग क्या बनाता है: यह असामान्य रूप से अधिक reasoning tokens इस्तेमाल करता है, जिससे धीमे या महंगे runs समझ में आ सकते हैं।

संग्रहीत मॉडल: इस मॉडल को अब अपडेट नहीं किया जाएगा और नए परीक्षणों में टेस्ट नहीं किया जाएगा।

पहचान नोट

Gemini 3.1 Flash Lite Preview, Google: Gemini 3.1 Flash Lite का प्रीव्यू संस्करण था।

स्कोर

8.4

संगति

9.6

विश्वसनीयता

लागू नहीं

कुल लागत (वर्तमान कीमत)

$2.310

कुल आउटपुट टोकन

1,534,593

कुल इनपुट टोकन

इनपुट कीमत

$0.250 / 1M

आउटपुट कीमत

$1.500 / 1M

सही परीक्षण

गलत टेस्ट: 4

प्रति प्रयास पास दर: 77.1%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

68.83s

प्रतिक्रिया समय (अधिकतम): 280.52s

प्रतिक्रिया समय (कुल): 1101.32s

गलत उत्तर: 3 निर्देशों का पालन नहीं किया: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#12 Gemini 3.1 Flash Lite Preview

high

लागत: $0.096
समय: 133.9s
टोकन: 63,687 tok

रन इतिहास

परीक्षण किया गया	स्कोर	विश्वसनीयता	कुल लागत	तुलना करें
2026-05-06 14:01 दोबारा परीक्षण	5.3	लागू नहीं	$2.310	तुलना करें
2026-05-06 14:01 दोबारा परीक्षण	8.6	लागू नहीं	$2.310	तुलना करें
2026-05-06 14:01 दोबारा परीक्षण	8.6	लागू नहीं	$2.310	तुलना करें
2026-05-06 14:01 सूट बदला गया	8.6	लागू नहीं	$2.310	तुलना करें
2026-04-10 23:27 पहला दर्ज रन	8.4	लागू नहीं	$2.310	वर्तमान रन

रन तुलना

रन	स्कोर	संगति	विश्वसनीयता	सही परीक्षण	अस्थिर टेस्ट	कुल आउटपुट टोकन	कुल लागत	प्रतिक्रिया समय (औसत)
2026-04-10 23:27 · पहला दर्ज रन	8.4	9.6	लागू नहीं	12/16	1	1,534,593	$2.310	68.83s
2026-05-06 14:01 · दोबारा परीक्षण	8.6	10.0	लागू नहीं	13/16	0	1,534,593	$2.310	68.83s
अंतर	-0.2	-0.4		-1	+1	0	$0.000	0ms

इन दो रन में अलग-अलग बेंचमार्क सूट इस्तेमाल हुए थे, इसलिए अंतर मॉडल बदलाव और सूट बदलाव दोनों को दर्शाते हैं।

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

Gemini 3.1 Flash Lite PreviewhighvsGemini 3 Flash Previewmedium Gemini 3.1 Flash Lite PreviewhighvsGemini 3.5 Flashhigh Gemini 3.1 Flash Lite PreviewhighvsNemotron 3 Ultramediumनिःशुल्क उपलब्ध Gemini 3.1 Flash Lite PreviewhighvsGPT-5.5low

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	10.0	10.0
संयुक्त	10.0	10.0
डेटा पार्सिंग और निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	5.3	10.0
Samanya Buddhimatta	10.0	10.0
निर्देश पालन	7.9	6.9
पहेली समाधान	7.7	10.0
टूल कॉलिंग	10.0	10.0

Gemini 3.1 Flash Lite Preview

Hamster playing table tennis

#12 Gemini 3.1 Flash Lite Preview

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल