GPT-5.5 vs Grok 4.20 Multi Agent Beta benchmark موازنہ: GPT-5.5 average score میں آگے ہے: 9.3 vs 5.0. GPT-5.5 کی benchmark لاگت کم ہے: $0.907 vs $5.599. Grok 4.20 Multi Agent Beta تیز ہے: 9.69s vs 9.76s، pass rates 85.7% vs 50.8%.
تجویز کردہ ماڈل: GPT-5.5 - It has the best score here (9.3), while costing about 6.2x less than Grok 4.20 Multi Agent Beta.
بینچ مارکس AI BENCHY ٹیسٹ سوئٹس سے اس وقت تیار کیے گئے: 2026-06-18
10.0پہلی کوشش کی کامیابی کا اسکور: 10.0 کا مطلب ہے کامیاب کالز سے پہلے ہدف API یا ریٹ لمٹ کی کوئی دوبارہ کوشش کے قابل ناکامی نہیں؛ ریکارڈ شدہ ناکامیاں اسکور کم کرتی ہیں۔…
دستیاب نہیںپہلی کوشش کی کامیابی کا اسکور: 10.0 کا مطلب ہے کامیاب کالز سے پہلے ہدف API یا ریٹ لمٹ کی کوئی دوبارہ کوشش کے قابل ناکامی نہیں؛ ریکارڈ شدہ ناکامیاں اسکور کم کرتی ہیں۔…
تسلسل
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
6.7تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
درست ٹیسٹس
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 3ردِعمل کا وقت (اوسط)9.76sردِعمل کا وقت (زیادہ سے زیادہ)56.19sردِعمل کا وقت (کل)204.92sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 4API خرابی: 2اضافی فارمیٹنگ: 2ہدایات پر عمل نہیں کیا: 2ردِعمل کا وقت (اوسط)9.69sردِعمل کا وقت (زیادہ سے زیادہ)35.28sردِعمل کا وقت (کل)155.07sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
فی کوشش کامیابی کی شرح
85.7%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
50.8%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
غیر مستحکم ٹیسٹ
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
5غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کل رنز
63کل رنز…
52کل رنز…
فی نتیجہ لاگت
5.035یہ بینچ مارک کے ہر درست جواب کی اوسط لاگت سینٹس میں دکھاتا ہے (کم ہونا بہتر ہے)۔…
62.923یہ بینچ مارک کے ہر درست جواب کی اوسط لاگت سینٹس میں دکھاتا ہے (کم ہونا بہتر ہے)۔…
کل لاگت
$0.907کل لاگت (موجودہ قیمت)…
$5.599کل لاگت (موجودہ قیمت)…
ان پٹ قیمت
$5.000 / 1Mان پٹ قیمت…
$4.235 / 1Mان پٹ قیمت…
آؤٹ پٹ قیمت
$30.000 / 1Mآؤٹ پٹ قیمت…
$4.235 / 1Mآؤٹ پٹ قیمت…
کل ان پٹ ٹوکنز
34,209کل ان پٹ ٹوکنز…
721,952کل ان پٹ ٹوکنز…
آؤٹ پٹ ٹوکنز
2,046آؤٹ پٹ ٹوکنز…
294,668آؤٹ پٹ ٹوکنز…
ریزننگ ٹوکنز
22,460ریزننگ ٹوکنز…
305,374ریزننگ ٹوکنز…
ردِعمل کا وقت (اوسط)
9.76sردِعمل کا وقت (اوسط)…
9.69sردِعمل کا وقت (اوسط)…
ردِعمل کا وقت (زیادہ سے زیادہ)
56.19sردِعمل کا وقت (زیادہ سے زیادہ)…
35.28sردِعمل کا وقت (زیادہ سے زیادہ)…
ردِعمل کا وقت (کل)
204.92sردِعمل کا وقت (کل)…
155.07sردِعمل کا وقت (کل)…
جنریشن شوکیس
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)4.41sردِعمل کا وقت (زیادہ سے زیادہ)6.32sردِعمل کا وقت (کل)17.64sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
4.41sردِعمل کا وقت (اوسط)…
606کل ان پٹ ٹوکنز…
238آؤٹ پٹ ٹوکنز…
1,020ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
6.9تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
5.8تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
75.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
2غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںاضافی فارمیٹنگ: 1غلط جواب: 1ردِعمل کا وقت (اوسط)3.46sردِعمل کا وقت (زیادہ سے زیادہ)4.38sردِعمل کا وقت (کل)13.86sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)15.04sردِعمل کا وقت (زیادہ سے زیادہ)21.06sردِعمل کا وقت (کل)45.11sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
15.04sردِعمل کا وقت (اوسط)…
7,302کل ان پٹ ٹوکنز…
423آؤٹ پٹ ٹوکنز…
6,402ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
3.3تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
3.3تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
33.3%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)27.11sردِعمل کا وقت (زیادہ سے زیادہ)27.11sردِعمل کا وقت (کل)27.11sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)9.56sردِعمل کا وقت (زیادہ سے زیادہ)9.56sردِعمل کا وقت (کل)9.56sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
9.56sردِعمل کا وقت (اوسط)…
11,019کل ان پٹ ٹوکنز…
303آؤٹ پٹ ٹوکنز…
717ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
3.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
0.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںAPI خرابی: 1ردِعمل کا وقت (اوسط)0msردِعمل کا وقت (زیادہ سے زیادہ)0msردِعمل کا وقت (کل)0msکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)3.28sردِعمل کا وقت (زیادہ سے زیادہ)5.13sردِعمل کا وقت (کل)6.56sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
3.28sردِعمل کا وقت (اوسط)…
7,140کل ان پٹ ٹوکنز…
228آؤٹ پٹ ٹوکنز…
157ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)5.54sردِعمل کا وقت (زیادہ سے زیادہ)7.51sردِعمل کا وقت (کل)11.08sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
33.3%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 2ردِعمل کا وقت (اوسط)28.05sردِعمل کا وقت (زیادہ سے زیادہ)56.19sردِعمل کا وقت (کل)84.16sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
28.05sردِعمل کا وقت (اوسط)…
723کل ان پٹ ٹوکنز…
69آؤٹ پٹ ٹوکنز…
11,609ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
2.9تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
7.2تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
11.1%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
1غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 2اضافی فارمیٹنگ: 1ردِعمل کا وقت (اوسط)24.67sردِعمل کا وقت (زیادہ سے زیادہ)35.28sردِعمل کا وقت (کل)74.02sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)5.17sردِعمل کا وقت (زیادہ سے زیادہ)5.17sردِعمل کا وقت (کل)5.17sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
5.17sردِعمل کا وقت (اوسط)…
477کل ان پٹ ٹوکنز…
133آؤٹ پٹ ٹوکنز…
245ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
5.8تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
2.8تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
66.7%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
1غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںہدایات پر عمل نہیں کیا: 1ردِعمل کا وقت (اوسط)6.40sردِعمل کا وقت (زیادہ سے زیادہ)6.40sردِعمل کا وقت (کل)6.40sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)3.74sردِعمل کا وقت (زیادہ سے زیادہ)3.99sردِعمل کا وقت (کل)7.48sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
3.74sردِعمل کا وقت (اوسط)…
660کل ان پٹ ٹوکنز…
93آؤٹ پٹ ٹوکنز…
415ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
9.8تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)3.52sردِعمل کا وقت (زیادہ سے زیادہ)3.80sردِعمل کا وقت (کل)7.04sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)4.74sردِعمل کا وقت (زیادہ سے زیادہ)5.61sردِعمل کا وقت (کل)14.21sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
4.74sردِعمل کا وقت (اوسط)…
642کل ان پٹ ٹوکنز…
279آؤٹ پٹ ٹوکنز…
954ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
6.7تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
7.9تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
55.6%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
1غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںہدایات پر عمل نہیں کیا: 1غلط جواب: 1ردِعمل کا وقت (اوسط)5.19sردِعمل کا وقت (زیادہ سے زیادہ)5.49sردِعمل کا وقت (کل)15.57sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)4.96sردِعمل کا وقت (زیادہ سے زیادہ)4.96sردِعمل کا وقت (کل)4.96sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
4.96sردِعمل کا وقت (اوسط)…
5,445کل ان پٹ ٹوکنز…
250آؤٹ پٹ ٹوکنز…
101ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
3.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
0.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںAPI خرابی: 1ردِعمل کا وقت (اوسط)0msردِعمل کا وقت (زیادہ سے زیادہ)0msردِعمل کا وقت (کل)0msکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
0.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 1ردِعمل کا وقت (اوسط)10.06sردِعمل کا وقت (زیادہ سے زیادہ)10.06sردِعمل کا وقت (کل)10.06sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.06sردِعمل کا وقت (اوسط)…
195کل ان پٹ ٹوکنز…
30آؤٹ پٹ ٹوکنز…
840ریزننگ ٹوکنز…
Grok 4.20 Multi Agent Betaآرکائیو شدہ ماڈل: اس ماڈل کو اب اپ ڈیٹ نہیں کیا جائے گا اور نئے ٹیسٹس پر ٹیسٹ نہیں کیا جائے گا
0.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
0.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
0.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)0msردِعمل کا وقت (زیادہ سے زیادہ)0msردِعمل کا وقت (کل)0msکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…