Gemini 3 Flash Preview vs Grok 4.20 Beta benchmark तुलना: Gemini 3 Flash Preview average score में आगे है: 9.8 vs 5.8. Grok 4.20 Beta की benchmark लागत कम है: $0.087 vs $0.667. Grok 4.20 Beta तेज है: 1.19s vs 18.64s, pass rates 98.4% vs 37.0%.
अनुशंसित मॉडल: Grok 4.20 Beta - It offers the best overall trade-off: a competitive score (5.8), lower cost than Gemini 3 Flash Preview, and balanced response time.
बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-10
Grok 4.20 BetaGrok 4.20 Betanoneसंग्रहीत मॉडल: इस मॉडल को अब अपडेट नहीं किया जाएगा और नए परीक्षणों में टेस्ट नहीं किया जाएगा।रिलीज़: 2026-03-12
स्कोर
9.8सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
5.8सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
रैंक
#1
#107
विश्वसनीयता
10.0पहले प्रयास की सफलता स्कोर: 10.0 का मतलब है सफल कॉल से पहले लक्ष्य API या रेट-लिमिट की कोई पुनः प्रयास योग्य विफलता नहीं; दर्ज विफलताएँ स्कोर घटाती हैं।…
लागू नहींपहले प्रयास की सफलता स्कोर: 10.0 का मतलब है सफल कॉल से पहले लक्ष्य API या रेट-लिमिट की कोई पुनः प्रयास योग्य विफलता नहीं; दर्ज विफलताएँ स्कोर घटाती हैं।…
संगति
9.7संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
9.6संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
सही परीक्षण
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।गलत उत्तर: 1प्रतिक्रिया समय (औसत)18.64sप्रतिक्रिया समय (अधिकतम)117.26sप्रतिक्रिया समय (कुल)391.35sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।गलत उत्तर: 10निर्देशों का पालन नहीं किया: 1अमान्य टूल कॉल: 1प्रतिक्रिया समय (औसत)1.19sप्रतिक्रिया समय (अधिकतम)6.48sप्रतिक्रिया समय (कुल)21.43sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
प्रति प्रयास पास दर
98.4%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
37.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
अस्थिर टेस्ट
1अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
1अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कुल रन
63कुल रन…
52कुल रन…
प्रति परिणाम लागत
3.335यह बेंचमार्क के प्रति सही उत्तर की औसत लागत सेंट में दिखाता है (कम होना बेहतर है)।…
1.510यह बेंचमार्क के प्रति सही उत्तर की औसत लागत सेंट में दिखाता है (कम होना बेहतर है)।…
कुल लागत
$0.667कुल लागत (वर्तमान कीमत)…
$0.087कुल लागत (वर्तमान कीमत)…
इनपुट कीमत
$0.500 / 1Mइनपुट कीमत…
$2.041 / 1Mइनपुट कीमत…
आउटपुट कीमत
$3.000 / 1Mआउटपुट कीमत…
$2.041 / 1Mआउटपुट कीमत…
कुल इनपुट टोकन
37,017कुल इनपुट टोकन…
40,597कुल इनपुट टोकन…
आउटपुट टोकन
2,006आउटपुट टोकन…
1,657आउटपुट टोकन…
रीजनिंग टोकन
214,153रीजनिंग टोकन…
0रीजनिंग टोकन…
प्रतिक्रिया समय (औसत)
18.64sप्रतिक्रिया समय (औसत)…
1.19sप्रतिक्रिया समय (औसत)…
प्रतिक्रिया समय (अधिकतम)
117.26sप्रतिक्रिया समय (अधिकतम)…
6.48sप्रतिक्रिया समय (अधिकतम)…
प्रतिक्रिया समय (कुल)
391.35sप्रतिक्रिया समय (कुल)…
21.43sप्रतिक्रिया समय (कुल)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
100.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।कोई विफल उत्तर नहीं।प्रतिक्रिया समय (औसत)3.88sप्रतिक्रिया समय (अधिकतम)5.73sप्रतिक्रिया समय (कुल)15.53sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
3.88sप्रतिक्रिया समय (औसत)…
494कुल इनपुट टोकन…
330आउटपुट टोकन…
3,216रीजनिंग टोकन…
Grok 4.20 Betaसंग्रहीत मॉडल: इस मॉडल को अब अपडेट नहीं किया जाएगा और नए परीक्षणों में टेस्ट नहीं किया जाएगा।
4.0सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
8.4संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
16.7%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
1अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।गलत उत्तर: 4प्रतिक्रिया समय (औसत)597msप्रतिक्रिया समय (अधिकतम)866msप्रतिक्रिया समय (कुल)2.39sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
7.6संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
88.9%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
1अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।गलत उत्तर: 1प्रतिक्रिया समय (औसत)84.40sप्रतिक्रिया समय (अधिकतम)117.26sप्रतिक्रिया समय (कुल)253.21sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
84.40sप्रतिक्रिया समय (औसत)…
8,122कुल इनपुट टोकन…
462आउटपुट टोकन…
161,084रीजनिंग टोकन…
Grok 4.20 Betaसंग्रहीत मॉडल: इस मॉडल को अब अपडेट नहीं किया जाएगा और नए परीक्षणों में टेस्ट नहीं किया जाएगा।
5.5सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
0.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।गलत उत्तर: 1प्रतिक्रिया समय (औसत)1.14sप्रतिक्रिया समय (अधिकतम)1.14sप्रतिक्रिया समय (कुल)1.14sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
100.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।कोई विफल उत्तर नहीं।प्रतिक्रिया समय (औसत)22.42sप्रतिक्रिया समय (अधिकतम)22.42sप्रतिक्रिया समय (कुल)22.42sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
22.42sप्रतिक्रिया समय (औसत)…
12,873कुल इनपुट टोकन…
351आउटपुट टोकन…
10,485रीजनिंग टोकन…
Grok 4.20 Betaसंग्रहीत मॉडल: इस मॉडल को अब अपडेट नहीं किया जाएगा और नए परीक्षणों में टेस्ट नहीं किया जाएगा।
3.0सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
0.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।अमान्य टूल कॉल: 1प्रतिक्रिया समय (औसत)6.48sप्रतिक्रिया समय (अधिकतम)6.48sप्रतिक्रिया समय (कुल)6.48sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
100.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।कोई विफल उत्तर नहीं।प्रतिक्रिया समय (औसत)5.43sप्रतिक्रिया समय (अधिकतम)6.18sप्रतिक्रिया समय (कुल)10.86sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
5.43sप्रतिक्रिया समय (औसत)…
7,548कुल इनपुट टोकन…
279आउटपुट टोकन…
4,893रीजनिंग टोकन…
Grok 4.20 Betaसंग्रहीत मॉडल: इस मॉडल को अब अपडेट नहीं किया जाएगा और नए परीक्षणों में टेस्ट नहीं किया जाएगा।
10.0सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
100.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।कोई विफल उत्तर नहीं।प्रतिक्रिया समय (औसत)601msप्रतिक्रिया समय (अधिकतम)634msप्रतिक्रिया समय (कुल)1.20sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
100.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।कोई विफल उत्तर नहीं।प्रतिक्रिया समय (औसत)15.27sप्रतिक्रिया समय (अधिकतम)34.09sप्रतिक्रिया समय (कुल)45.80sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
15.27sप्रतिक्रिया समय (औसत)…
633कुल इनपुट टोकन…
12आउटपुट टोकन…
21,684रीजनिंग टोकन…
Grok 4.20 Betaसंग्रहीत मॉडल: इस मॉडल को अब अपडेट नहीं किया जाएगा और नए परीक्षणों में टेस्ट नहीं किया जाएगा।
3.0सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
0.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।गलत उत्तर: 3प्रतिक्रिया समय (औसत)611msप्रतिक्रिया समय (अधिकतम)616msप्रतिक्रिया समय (कुल)1.83sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
100.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।कोई विफल उत्तर नहीं।प्रतिक्रिया समय (औसत)5.19sप्रतिक्रिया समय (अधिकतम)5.19sप्रतिक्रिया समय (कुल)5.19sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
5.19sप्रतिक्रिया समय (औसत)…
486कुल इनपुट टोकन…
72आउटपुट टोकन…
1,905रीजनिंग टोकन…
Grok 4.20 Betaसंग्रहीत मॉडल: इस मॉडल को अब अपडेट नहीं किया जाएगा और नए परीक्षणों में टेस्ट नहीं किया जाएगा।
5.0सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
0.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।निर्देशों का पालन नहीं किया: 1प्रतिक्रिया समय (औसत)541msप्रतिक्रिया समय (अधिकतम)541msप्रतिक्रिया समय (कुल)541msकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
100.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।कोई विफल उत्तर नहीं।प्रतिक्रिया समय (औसत)4.04sप्रतिक्रिया समय (अधिकतम)4.70sप्रतिक्रिया समय (कुल)8.08sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
4.04sप्रतिक्रिया समय (औसत)…
615कुल इनपुट टोकन…
72आउटपुट टोकन…
2,709रीजनिंग टोकन…
Grok 4.20 Betaसंग्रहीत मॉडल: इस मॉडल को अब अपडेट नहीं किया जाएगा और नए परीक्षणों में टेस्ट नहीं किया जाएगा।
6.3सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
50.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।गलत उत्तर: 1प्रतिक्रिया समय (औसत)649msप्रतिक्रिया समय (अधिकतम)952msप्रतिक्रिया समय (कुल)1.30sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
100.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।कोई विफल उत्तर नहीं।प्रतिक्रिया समय (औसत)4.05sप्रतिक्रिया समय (अधिकतम)5.64sप्रतिक्रिया समय (कुल)12.15sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
4.05sप्रतिक्रिया समय (औसत)…
558कुल इनपुट टोकन…
183आउटपुट टोकन…
4,365रीजनिंग टोकन…
Grok 4.20 Betaसंग्रहीत मॉडल: इस मॉडल को अब अपडेट नहीं किया जाएगा और नए परीक्षणों में टेस्ट नहीं किया जाएगा।
7.7सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
66.7%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।गलत उत्तर: 1प्रतिक्रिया समय (औसत)586msप्रतिक्रिया समय (अधिकतम)813msप्रतिक्रिया समय (कुल)1.76sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
100.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।कोई विफल उत्तर नहीं।प्रतिक्रिया समय (औसत)12.60sप्रतिक्रिया समय (अधिकतम)12.60sप्रतिक्रिया समय (कुल)12.60sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
12.60sप्रतिक्रिया समय (औसत)…
5,532कुल इनपुट टोकन…
234आउटपुट टोकन…
1,487रीजनिंग टोकन…
Grok 4.20 Betaसंग्रहीत मॉडल: इस मॉडल को अब अपडेट नहीं किया जाएगा और नए परीक्षणों में टेस्ट नहीं किया जाएगा।
10.0सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
100.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।कोई विफल उत्तर नहीं।प्रतिक्रिया समय (औसत)4.79sप्रतिक्रिया समय (अधिकतम)4.79sप्रतिक्रिया समय (कुल)4.79sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
100.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।कोई विफल उत्तर नहीं।प्रतिक्रिया समय (औसत)5.50sप्रतिक्रिया समय (अधिकतम)5.50sप्रतिक्रिया समय (कुल)5.50sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
5.50sप्रतिक्रिया समय (औसत)…
156कुल इनपुट टोकन…
11आउटपुट टोकन…
2,325रीजनिंग टोकन…
Grok 4.20 Betaसंग्रहीत मॉडल: इस मॉडल को अब अपडेट नहीं किया जाएगा और नए परीक्षणों में टेस्ट नहीं किया जाएगा।