کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 3ردِعمل کا وقت (اوسط)6.87sردِعمل کا وقت (زیادہ سے زیادہ)11.96sردِعمل کا وقت (کل)55.00sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 2ہدایات پر عمل نہیں کیا: 1ردِعمل کا وقت (اوسط)21.06sردِعمل کا وقت (زیادہ سے زیادہ)100.41sردِعمل کا وقت (کل)315.95sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
تسلسل
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
8.9تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
فی نتیجہ لاگت
1.547یہ بینچ مارک کے ہر درست جواب کی اوسط لاگت سینٹس میں دکھاتا ہے (کم ہونا بہتر ہے)۔…
6.533یہ بینچ مارک کے ہر درست جواب کی اوسط لاگت سینٹس میں دکھاتا ہے (کم ہونا بہتر ہے)۔…
کل لاگت
$0.186کل لاگت…
$0.784کل لاگت…
فی کوشش کامیابی کی شرح
80.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
86.7%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
غیر مستحکم ٹیسٹ
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
2غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
common.totalRuns
45 (15 x 3)common.totalRuns…
45 (15 x 3)common.totalRuns…
آؤٹ پٹ ٹوکنز
1,424آؤٹ پٹ ٹوکنز…
1,611آؤٹ پٹ ٹوکنز…
ریزننگ ٹوکنز
9,332ریزننگ ٹوکنز…
46,321ریزننگ ٹوکنز…
ردِعمل کا وقت (اوسط)
6.87sردِعمل کا وقت (اوسط)…
21.06sردِعمل کا وقت (اوسط)…
ردِعمل کا وقت (زیادہ سے زیادہ)
11.96sردِعمل کا وقت (زیادہ سے زیادہ)…
100.41sردِعمل کا وقت (زیادہ سے زیادہ)…
ردِعمل کا وقت (کل)
55.00sردِعمل کا وقت (کل)…
315.95sردِعمل کا وقت (کل)…
اسکور کے لحاظ سے سرفہرست ماڈلز
اسکور بمقابلہ کل لاگت
ردِعمل کا وقت (اوسط)
اوسط اسکور vs ردِعمل کا وقت (اوسط)
زمرہ وار تفصیل
اینٹی اے آئی چالیں
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
Google: Gemini 3 Pro Preview
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)3.75sردِعمل کا وقت (زیادہ سے زیادہ)3.75sردِعمل کا وقت (کل)3.75sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
3.75sردِعمل کا وقت (اوسط)…
143آؤٹ پٹ ٹوکنز…
1,107ریزننگ ٹوکنز…
OpenAI: GPT-5.4
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)5.02sردِعمل کا وقت (زیادہ سے زیادہ)6.42sردِعمل کا وقت (کل)15.06sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
5.02sردِعمل کا وقت (اوسط)…
216آؤٹ پٹ ٹوکنز…
1,466ریزننگ ٹوکنز…
مشترکہ
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
Google: Gemini 3 Pro Preview
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
0.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 1ردِعمل کا وقت (اوسط)10.37sردِعمل کا وقت (زیادہ سے زیادہ)10.37sردِعمل کا وقت (کل)10.37sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.37sردِعمل کا وقت (اوسط)…
351آؤٹ پٹ ٹوکنز…
952ریزننگ ٹوکنز…
OpenAI: GPT-5.4
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)20.57sردِعمل کا وقت (زیادہ سے زیادہ)20.57sردِعمل کا وقت (کل)20.57sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
20.57sردِعمل کا وقت (اوسط)…
301آؤٹ پٹ ٹوکنز…
3,543ریزننگ ٹوکنز…
ڈیٹا پارسنگ اور استخراج
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
Google: Gemini 3 Pro Preview
9.9تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)10.84sردِعمل کا وقت (زیادہ سے زیادہ)10.84sردِعمل کا وقت (کل)10.84sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
10.84sردِعمل کا وقت (اوسط)…
279آؤٹ پٹ ٹوکنز…
3,156ریزننگ ٹوکنز…
OpenAI: GPT-5.4
9.9تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)5.32sردِعمل کا وقت (زیادہ سے زیادہ)5.40sردِعمل کا وقت (کل)10.64sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
5.32sردِعمل کا وقت (اوسط)…
234آؤٹ پٹ ٹوکنز…
804ریزننگ ٹوکنز…
ڈومین مخصوص
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
Google: Gemini 3 Pro Preview
4.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
33.3%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 2ردِعمل کا وقت (اوسط)7.01sردِعمل کا وقت (زیادہ سے زیادہ)7.01sردِعمل کا وقت (کل)7.01sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
7.01sردِعمل کا وقت (اوسط)…
15آؤٹ پٹ ٹوکنز…
1,195ریزننگ ٹوکنز…
OpenAI: GPT-5.4
4.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
7.2تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
44.4%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
1غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 2ردِعمل کا وقت (اوسط)74.27sردِعمل کا وقت (زیادہ سے زیادہ)100.41sردِعمل کا وقت (کل)222.80sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
74.27sردِعمل کا وقت (اوسط)…
61آؤٹ پٹ ٹوکنز…
34,748ریزننگ ٹوکنز…
ہدایات کی پیروی
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
Google: Gemini 3 Pro Preview
9.5تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)3.26sردِعمل کا وقت (زیادہ سے زیادہ)3.26sردِعمل کا وقت (کل)3.26sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
3.26sردِعمل کا وقت (اوسط)…
69آؤٹ پٹ ٹوکنز…
754ریزننگ ٹوکنز…
OpenAI: GPT-5.4
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)3.11sردِعمل کا وقت (زیادہ سے زیادہ)3.68sردِعمل کا وقت (کل)6.22sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
3.11sردِعمل کا وقت (اوسط)…
93آؤٹ پٹ ٹوکنز…
897ریزننگ ٹوکنز…
Puzzle Solving
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
Google: Gemini 3 Pro Preview
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)3.91sردِعمل کا وقت (زیادہ سے زیادہ)4.23sردِعمل کا وقت (کل)7.81sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
3.91sردِعمل کا وقت (اوسط)…
243آؤٹ پٹ ٹوکنز…
1,197ریزننگ ٹوکنز…
OpenAI: GPT-5.4
7.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
7.2تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
88.9%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
1غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںہدایات پر عمل نہیں کیا: 1ردِعمل کا وقت (اوسط)9.13sردِعمل کا وقت (زیادہ سے زیادہ)18.14sردِعمل کا وقت (کل)27.39sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
9.13sردِعمل کا وقت (اوسط)…
442آؤٹ پٹ ٹوکنز…
3,832ریزننگ ٹوکنز…
ٹول کالنگ
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
Google: Gemini 3 Pro Preview
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)11.96sردِعمل کا وقت (زیادہ سے زیادہ)11.96sردِعمل کا وقت (کل)11.96sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
11.96sردِعمل کا وقت (اوسط)…
324آؤٹ پٹ ٹوکنز…
971ریزننگ ٹوکنز…
OpenAI: GPT-5.4
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)13.28sردِعمل کا وقت (زیادہ سے زیادہ)13.28sردِعمل کا وقت (کل)13.28sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…