Google: Gemini 3.5 Flash vs Grok 4.20 Multi Agent Beta
خلاصہ
Gemini 3.5 Flash vs Grok 4.20 Multi Agent Beta benchmark موازنہ: Gemini 3.5 Flash average score میں آگے ہے: 9.6 vs 6.6. Gemini 3.5 Flash کی benchmark لاگت کم ہے: $1.115 vs $5.599. Gemini 3.5 Flash تیز ہے: 8.84s vs 9.69s، pass rates 96.8% vs 59.3%.
تجویز کردہ ماڈل: Gemini 3.5 Flash - It has the best score here (9.6), while costing about 5.0x less than Grok 4.20 Multi Agent Beta.
بینچ مارکس AI BENCHY ٹیسٹ سوئٹس سے اس وقت تیار کیے گئے: 2026-06-10
10.0پہلی کوشش کی کامیابی کا اسکور: 10.0 کا مطلب ہے کامیاب کالز سے پہلے ہدف API یا ریٹ لمٹ کی کوئی دوبارہ کوشش کے قابل ناکامی نہیں؛ ریکارڈ شدہ ناکامیاں اسکور کم کرتی ہیں۔…
دستیاب نہیںپہلی کوشش کی کامیابی کا اسکور: 10.0 کا مطلب ہے کامیاب کالز سے پہلے ہدف API یا ریٹ لمٹ کی کوئی دوبارہ کوشش کے قابل ناکامی نہیں؛ ریکارڈ شدہ ناکامیاں اسکور کم کرتی ہیں۔…
تسلسل
9.6تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
7.9تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
درست ٹیسٹس
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 1ردِعمل کا وقت (اوسط)8.84sردِعمل کا وقت (زیادہ سے زیادہ)34.82sردِعمل کا وقت (کل)185.57sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 4API خرابی: 2اضافی فارمیٹنگ: 2ہدایات پر عمل نہیں کیا: 2ردِعمل کا وقت (اوسط)9.69sردِعمل کا وقت (زیادہ سے زیادہ)35.28sردِعمل کا وقت (کل)155.07sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
فی کوشش کامیابی کی شرح
96.8%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
59.3%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
غیر مستحکم ٹیسٹ
1غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
5غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کل رنز
63کل رنز…
52کل رنز…
فی نتیجہ لاگت
5.575یہ بینچ مارک کے ہر درست جواب کی اوسط لاگت سینٹس میں دکھاتا ہے (کم ہونا بہتر ہے)۔…
62.923یہ بینچ مارک کے ہر درست جواب کی اوسط لاگت سینٹس میں دکھاتا ہے (کم ہونا بہتر ہے)۔…
کل لاگت
$1.115کل لاگت (موجودہ قیمت)…
$5.599کل لاگت (موجودہ قیمت)…
ان پٹ قیمت
$1.500 / 1Mان پٹ قیمت…
$4.235 / 1Mان پٹ قیمت…
آؤٹ پٹ قیمت
$9.000 / 1Mآؤٹ پٹ قیمت…
$4.235 / 1Mآؤٹ پٹ قیمت…
کل ان پٹ ٹوکنز
37,594کل ان پٹ ٹوکنز…
721,952کل ان پٹ ٹوکنز…
آؤٹ پٹ ٹوکنز
1,975آؤٹ پٹ ٹوکنز…
294,668آؤٹ پٹ ٹوکنز…
ریزننگ ٹوکنز
115,638ریزننگ ٹوکنز…
305,374ریزننگ ٹوکنز…
ردِعمل کا وقت (اوسط)
8.84sردِعمل کا وقت (اوسط)…
9.69sردِعمل کا وقت (اوسط)…
ردِعمل کا وقت (زیادہ سے زیادہ)
34.82sردِعمل کا وقت (زیادہ سے زیادہ)…
35.28sردِعمل کا وقت (زیادہ سے زیادہ)…
ردِعمل کا وقت (کل)
185.57sردِعمل کا وقت (کل)…
155.07sردِعمل کا وقت (کل)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)2.57sردِعمل کا وقت (زیادہ سے زیادہ)3.60sردِعمل کا وقت (کل)10.27sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
2.57sردِعمل کا وقت (اوسط)…
492کل ان پٹ ٹوکنز…
174آؤٹ پٹ ٹوکنز…
4,997ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
6.9تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
5.8تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
75.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
2غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںاضافی فارمیٹنگ: 1غلط جواب: 1ردِعمل کا وقت (اوسط)3.46sردِعمل کا وقت (زیادہ سے زیادہ)4.38sردِعمل کا وقت (کل)13.86sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)22.96sردِعمل کا وقت (زیادہ سے زیادہ)34.82sردِعمل کا وقت (کل)68.88sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
22.96sردِعمل کا وقت (اوسط)…
8,118کل ان پٹ ٹوکنز…
456آؤٹ پٹ ٹوکنز…
47,129ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)27.11sردِعمل کا وقت (زیادہ سے زیادہ)27.11sردِعمل کا وقت (کل)27.11sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)22.37sردِعمل کا وقت (زیادہ سے زیادہ)22.37sردِعمل کا وقت (کل)22.37sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
22.37sردِعمل کا وقت (اوسط)…
12,873کل ان پٹ ٹوکنز…
351آؤٹ پٹ ٹوکنز…
16,323ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
3.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
0.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںAPI خرابی: 1ردِعمل کا وقت (اوسط)0msردِعمل کا وقت (زیادہ سے زیادہ)0msردِعمل کا وقت (کل)0msکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)6.43sردِعمل کا وقت (زیادہ سے زیادہ)8.51sردِعمل کا وقت (کل)12.87sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
6.43sردِعمل کا وقت (اوسط)…
7,548کل ان پٹ ٹوکنز…
279آؤٹ پٹ ٹوکنز…
8,466ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)5.54sردِعمل کا وقت (زیادہ سے زیادہ)7.51sردِعمل کا وقت (کل)11.08sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
7.2تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
77.8%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
1غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 1ردِعمل کا وقت (اوسط)14.09sردِعمل کا وقت (زیادہ سے زیادہ)22.00sردِعمل کا وقت (کل)42.27sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
14.09sردِعمل کا وقت (اوسط)…
633کل ان پٹ ٹوکنز…
12آؤٹ پٹ ٹوکنز…
24,721ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
2.9تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
7.2تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
11.1%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
1غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 2اضافی فارمیٹنگ: 1ردِعمل کا وقت (اوسط)24.67sردِعمل کا وقت (زیادہ سے زیادہ)35.28sردِعمل کا وقت (کل)74.02sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)3.63sردِعمل کا وقت (زیادہ سے زیادہ)3.63sردِعمل کا وقت (کل)3.63sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
3.63sردِعمل کا وقت (اوسط)…
486کل ان پٹ ٹوکنز…
115آؤٹ پٹ ٹوکنز…
1,650ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
5.8تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
2.8تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
66.7%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
1غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںہدایات پر عمل نہیں کیا: 1ردِعمل کا وقت (اوسط)6.40sردِعمل کا وقت (زیادہ سے زیادہ)6.40sردِعمل کا وقت (کل)6.40sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)3.35sردِعمل کا وقت (زیادہ سے زیادہ)3.42sردِعمل کا وقت (کل)6.69sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
3.35sردِعمل کا وقت (اوسط)…
615کل ان پٹ ٹوکنز…
70آؤٹ پٹ ٹوکنز…
3,799ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
9.8تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)3.52sردِعمل کا وقت (زیادہ سے زیادہ)3.80sردِعمل کا وقت (کل)7.04sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)3.23sردِعمل کا وقت (زیادہ سے زیادہ)3.68sردِعمل کا وقت (کل)9.69sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
3.23sردِعمل کا وقت (اوسط)…
558کل ان پٹ ٹوکنز…
241آؤٹ پٹ ٹوکنز…
4,940ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
6.7تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
7.9تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
55.6%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
1غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںہدایات پر عمل نہیں کیا: 1غلط جواب: 1ردِعمل کا وقت (اوسط)5.19sردِعمل کا وقت (زیادہ سے زیادہ)5.49sردِعمل کا وقت (کل)15.57sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)4.96sردِعمل کا وقت (زیادہ سے زیادہ)4.96sردِعمل کا وقت (کل)4.96sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
4.96sردِعمل کا وقت (اوسط)…
6,115کل ان پٹ ٹوکنز…
265آؤٹ پٹ ٹوکنز…
1,608ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
3.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
0.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںAPI خرابی: 1ردِعمل کا وقت (اوسط)0msردِعمل کا وقت (زیادہ سے زیادہ)0msردِعمل کا وقت (کل)0msکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)3.94sردِعمل کا وقت (زیادہ سے زیادہ)3.94sردِعمل کا وقت (کل)3.94sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
3.94sردِعمل کا وقت (اوسط)…
156کل ان پٹ ٹوکنز…
12آؤٹ پٹ ٹوکنز…
2,005ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا