Google: Gemini 3.5 Flash vs Grok 4.20 Multi Agent Beta
خلاصہ
Gemini 3.5 Flash vs Grok 4.20 Multi Agent Beta benchmark موازنہ: Gemini 3.5 Flash average score میں آگے ہے: 9.4 vs 6.6. Gemini 3.5 Flash کی benchmark لاگت کم ہے: $0.349 vs $5.599. Gemini 3.5 Flash تیز ہے: 3.27s vs 9.69s، pass rates 90.5% vs 59.3%.
تجویز کردہ ماڈل: Gemini 3.5 Flash - It has the best score here (9.4), while costing about 16.1x less than Grok 4.20 Multi Agent Beta.
بینچ مارکس AI BENCHY ٹیسٹ سوئٹس سے اس وقت تیار کیے گئے: 2026-06-10
10.0پہلی کوشش کی کامیابی کا اسکور: 10.0 کا مطلب ہے کامیاب کالز سے پہلے ہدف API یا ریٹ لمٹ کی کوئی دوبارہ کوشش کے قابل ناکامی نہیں؛ ریکارڈ شدہ ناکامیاں اسکور کم کرتی ہیں۔…
دستیاب نہیںپہلی کوشش کی کامیابی کا اسکور: 10.0 کا مطلب ہے کامیاب کالز سے پہلے ہدف API یا ریٹ لمٹ کی کوئی دوبارہ کوشش کے قابل ناکامی نہیں؛ ریکارڈ شدہ ناکامیاں اسکور کم کرتی ہیں۔…
تسلسل
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
7.9تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
درست ٹیسٹس
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 2ردِعمل کا وقت (اوسط)3.27sردِعمل کا وقت (زیادہ سے زیادہ)9.05sردِعمل کا وقت (کل)68.65sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 4API خرابی: 2اضافی فارمیٹنگ: 2ہدایات پر عمل نہیں کیا: 2ردِعمل کا وقت (اوسط)9.69sردِعمل کا وقت (زیادہ سے زیادہ)35.28sردِعمل کا وقت (کل)155.07sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
فی کوشش کامیابی کی شرح
90.5%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
59.3%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
غیر مستحکم ٹیسٹ
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
5غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کل رنز
63کل رنز…
52کل رنز…
فی نتیجہ لاگت
1.834یہ بینچ مارک کے ہر درست جواب کی اوسط لاگت سینٹس میں دکھاتا ہے (کم ہونا بہتر ہے)۔…
62.923یہ بینچ مارک کے ہر درست جواب کی اوسط لاگت سینٹس میں دکھاتا ہے (کم ہونا بہتر ہے)۔…
کل لاگت
$0.349کل لاگت (موجودہ قیمت)…
$5.599کل لاگت (موجودہ قیمت)…
ان پٹ قیمت
$1.500 / 1Mان پٹ قیمت…
$4.235 / 1Mان پٹ قیمت…
آؤٹ پٹ قیمت
$9.000 / 1Mآؤٹ پٹ قیمت…
$4.235 / 1Mآؤٹ پٹ قیمت…
کل ان پٹ ٹوکنز
36,938کل ان پٹ ٹوکنز…
721,952کل ان پٹ ٹوکنز…
آؤٹ پٹ ٹوکنز
2,033آؤٹ پٹ ٹوکنز…
294,668آؤٹ پٹ ٹوکنز…
ریزننگ ٹوکنز
30,519ریزننگ ٹوکنز…
305,374ریزننگ ٹوکنز…
ردِعمل کا وقت (اوسط)
3.27sردِعمل کا وقت (اوسط)…
9.69sردِعمل کا وقت (اوسط)…
ردِعمل کا وقت (زیادہ سے زیادہ)
9.05sردِعمل کا وقت (زیادہ سے زیادہ)…
35.28sردِعمل کا وقت (زیادہ سے زیادہ)…
ردِعمل کا وقت (کل)
68.65sردِعمل کا وقت (کل)…
155.07sردِعمل کا وقت (کل)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)2.52sردِعمل کا وقت (زیادہ سے زیادہ)5.40sردِعمل کا وقت (کل)10.08sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
2.52sردِعمل کا وقت (اوسط)…
494کل ان پٹ ٹوکنز…
209آؤٹ پٹ ٹوکنز…
2,536ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
6.9تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
5.8تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
75.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
2غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںاضافی فارمیٹنگ: 1غلط جواب: 1ردِعمل کا وقت (اوسط)3.46sردِعمل کا وقت (زیادہ سے زیادہ)4.38sردِعمل کا وقت (کل)13.86sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
66.7%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 1ردِعمل کا وقت (اوسط)6.71sردِعمل کا وقت (زیادہ سے زیادہ)9.05sردِعمل کا وقت (کل)20.13sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
6.71sردِعمل کا وقت (اوسط)…
8,118کل ان پٹ ٹوکنز…
458آؤٹ پٹ ٹوکنز…
13,420ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)27.11sردِعمل کا وقت (زیادہ سے زیادہ)27.11sردِعمل کا وقت (کل)27.11sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)6.44sردِعمل کا وقت (زیادہ سے زیادہ)6.44sردِعمل کا وقت (کل)6.44sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
6.44sردِعمل کا وقت (اوسط)…
12,873کل ان پٹ ٹوکنز…
351آؤٹ پٹ ٹوکنز…
3,050ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
3.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
0.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںAPI خرابی: 1ردِعمل کا وقت (اوسط)0msردِعمل کا وقت (زیادہ سے زیادہ)0msردِعمل کا وقت (کل)0msکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)1.81sردِعمل کا وقت (زیادہ سے زیادہ)2.32sردِعمل کا وقت (کل)3.63sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
1.81sردِعمل کا وقت (اوسط)…
7,548کل ان پٹ ٹوکنز…
279آؤٹ پٹ ٹوکنز…
1,164ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)5.54sردِعمل کا وقت (زیادہ سے زیادہ)7.51sردِعمل کا وقت (کل)11.08sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
66.7%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 1ردِعمل کا وقت (اوسط)3.39sردِعمل کا وقت (زیادہ سے زیادہ)4.44sردِعمل کا وقت (کل)10.16sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
3.39sردِعمل کا وقت (اوسط)…
633کل ان پٹ ٹوکنز…
12آؤٹ پٹ ٹوکنز…
4,538ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
2.9تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
7.2تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
11.1%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
1غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 2اضافی فارمیٹنگ: 1ردِعمل کا وقت (اوسط)24.67sردِعمل کا وقت (زیادہ سے زیادہ)35.28sردِعمل کا وقت (کل)74.02sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)2.27sردِعمل کا وقت (زیادہ سے زیادہ)2.27sردِعمل کا وقت (کل)2.27sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
2.27sردِعمل کا وقت (اوسط)…
486کل ان پٹ ٹوکنز…
119آؤٹ پٹ ٹوکنز…
916ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
5.8تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
2.8تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
66.7%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
1غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںہدایات پر عمل نہیں کیا: 1ردِعمل کا وقت (اوسط)6.40sردِعمل کا وقت (زیادہ سے زیادہ)6.40sردِعمل کا وقت (کل)6.40sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)1.86sردِعمل کا وقت (زیادہ سے زیادہ)2.10sردِعمل کا وقت (کل)3.73sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
1.86sردِعمل کا وقت (اوسط)…
615کل ان پٹ ٹوکنز…
71آؤٹ پٹ ٹوکنز…
1,652ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
9.8تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)3.52sردِعمل کا وقت (زیادہ سے زیادہ)3.80sردِعمل کا وقت (کل)7.04sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)2.35sردِعمل کا وقت (زیادہ سے زیادہ)3.25sردِعمل کا وقت (کل)7.06sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
2.35sردِعمل کا وقت (اوسط)…
558کل ان پٹ ٹوکنز…
288آؤٹ پٹ ٹوکنز…
2,150ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
6.7تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
7.9تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
55.6%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
1غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںہدایات پر عمل نہیں کیا: 1غلط جواب: 1ردِعمل کا وقت (اوسط)5.19sردِعمل کا وقت (زیادہ سے زیادہ)5.49sردِعمل کا وقت (کل)15.57sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)3.27sردِعمل کا وقت (زیادہ سے زیادہ)3.27sردِعمل کا وقت (کل)3.27sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
3.27sردِعمل کا وقت (اوسط)…
5,457کل ان پٹ ٹوکنز…
234آؤٹ پٹ ٹوکنز…
403ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
3.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
0.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںAPI خرابی: 1ردِعمل کا وقت (اوسط)0msردِعمل کا وقت (زیادہ سے زیادہ)0msردِعمل کا وقت (کل)0msکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)1.88sردِعمل کا وقت (زیادہ سے زیادہ)1.88sردِعمل کا وقت (کل)1.88sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
1.88sردِعمل کا وقت (اوسط)…
156کل ان پٹ ٹوکنز…
12آؤٹ پٹ ٹوکنز…
690ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا