کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںاضافی فارمیٹنگ: 4غلط جواب: 2ردِعمل کا وقت (اوسط)25.08sردِعمل کا وقت (زیادہ سے زیادہ)83.40sردِعمل کا وقت (کل)200.67sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 4ہدایات پر عمل نہیں کیا: 1ردِعمل کا وقت (اوسط)6.22sردِعمل کا وقت (زیادہ سے زیادہ)18.33sردِعمل کا وقت (کل)93.31sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
تسلسل
8.9تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
8.4تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
فی نتیجہ لاگت
14.411یہ بینچ مارک کے ہر درست جواب کی اوسط لاگت سینٹس میں دکھاتا ہے (کم ہونا بہتر ہے)۔…
3.110یہ بینچ مارک کے ہر درست جواب کی اوسط لاگت سینٹس میں دکھاتا ہے (کم ہونا بہتر ہے)۔…
کل لاگت
$1.297کل لاگت…
$0.311کل لاگت…
فی کوشش کامیابی کی شرح
64.4%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
75.6%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
غیر مستحکم ٹیسٹ
2غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
3غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
common.totalRuns
45 (15 x 3)common.totalRuns…
45 (15 x 3)common.totalRuns…
آؤٹ پٹ ٹوکنز
26,066آؤٹ پٹ ٹوکنز…
18,953آؤٹ پٹ ٹوکنز…
ریزننگ ٹوکنز
17,071ریزننگ ٹوکنز…
0ریزننگ ٹوکنز…
ردِعمل کا وقت (اوسط)
25.08sردِعمل کا وقت (اوسط)…
6.22sردِعمل کا وقت (اوسط)…
ردِعمل کا وقت (زیادہ سے زیادہ)
83.40sردِعمل کا وقت (زیادہ سے زیادہ)…
18.33sردِعمل کا وقت (زیادہ سے زیادہ)…
ردِعمل کا وقت (کل)
200.67sردِعمل کا وقت (کل)…
93.31sردِعمل کا وقت (کل)…
اسکور کے لحاظ سے سرفہرست ماڈلز
اسکور بمقابلہ کل لاگت
ردِعمل کا وقت (اوسط)
اوسط اسکور vs ردِعمل کا وقت (اوسط)
زمرہ وار تفصیل
اینٹی اے آئی چالیں
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
Anthropic: Claude Opus 4.6
4.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
4.4تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
55.6%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
2غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںاضافی فارمیٹنگ: 2ردِعمل کا وقت (اوسط)11.88sردِعمل کا وقت (زیادہ سے زیادہ)11.88sردِعمل کا وقت (کل)11.88sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
11.88sردِعمل کا وقت (اوسط)…
897آؤٹ پٹ ٹوکنز…
1,000ریزننگ ٹوکنز…
OpenAI: GPT-5.3 Chat
7.3تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
7.5تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
77.8%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
1غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںہدایات پر عمل نہیں کیا: 1ردِعمل کا وقت (اوسط)4.72sردِعمل کا وقت (زیادہ سے زیادہ)7.35sردِعمل کا وقت (کل)14.17sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
4.72sردِعمل کا وقت (اوسط)…
3,091آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
مشترکہ
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
Anthropic: Claude Opus 4.6
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)76.66sردِعمل کا وقت (زیادہ سے زیادہ)76.66sردِعمل کا وقت (کل)76.66sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
76.66sردِعمل کا وقت (اوسط)…
8,178آؤٹ پٹ ٹوکنز…
5,194ریزننگ ٹوکنز…
OpenAI: GPT-5.3 Chat
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)11.96sردِعمل کا وقت (زیادہ سے زیادہ)11.96sردِعمل کا وقت (کل)11.96sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
11.96sردِعمل کا وقت (اوسط)…
2,614آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
ڈیٹا پارسنگ اور استخراج
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
Anthropic: Claude Opus 4.6
9.9تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)7.37sردِعمل کا وقت (زیادہ سے زیادہ)7.37sردِعمل کا وقت (کل)7.37sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
7.37sردِعمل کا وقت (اوسط)…
691آؤٹ پٹ ٹوکنز…
757ریزننگ ٹوکنز…
OpenAI: GPT-5.3 Chat
9.9تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)2.21sردِعمل کا وقت (زیادہ سے زیادہ)2.52sردِعمل کا وقت (کل)4.42sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
2.21sردِعمل کا وقت (اوسط)…
942آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
ڈومین مخصوص
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
Anthropic: Claude Opus 4.6
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
0.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںاضافی فارمیٹنگ: 2غلط جواب: 1ردِعمل کا وقت (اوسط)83.40sردِعمل کا وقت (زیادہ سے زیادہ)83.40sردِعمل کا وقت (کل)83.40sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
83.40sردِعمل کا وقت (اوسط)…
14,642آؤٹ پٹ ٹوکنز…
8,687ریزننگ ٹوکنز…
OpenAI: GPT-5.3 Chat
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
4.4تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
33.3%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
2غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 3ردِعمل کا وقت (اوسط)13.01sردِعمل کا وقت (زیادہ سے زیادہ)18.33sردِعمل کا وقت (کل)39.04sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
13.01sردِعمل کا وقت (اوسط)…
8,264آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
ہدایات کی پیروی
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
Anthropic: Claude Opus 4.6
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)2.43sردِعمل کا وقت (زیادہ سے زیادہ)2.43sردِعمل کا وقت (کل)2.43sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
2.43sردِعمل کا وقت (اوسط)…
266آؤٹ پٹ ٹوکنز…
467ریزننگ ٹوکنز…
OpenAI: GPT-5.3 Chat
9.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
50.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 1ردِعمل کا وقت (اوسط)3.29sردِعمل کا وقت (زیادہ سے زیادہ)4.18sردِعمل کا وقت (کل)6.59sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
3.29sردِعمل کا وقت (اوسط)…
1,455آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
Puzzle Solving
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
Anthropic: Claude Opus 4.6
7.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
66.7%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 1ردِعمل کا وقت (اوسط)4.60sردِعمل کا وقت (زیادہ سے زیادہ)4.66sردِعمل کا وقت (کل)9.20sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
4.60sردِعمل کا وقت (اوسط)…
531آؤٹ پٹ ٹوکنز…
637ریزننگ ٹوکنز…
OpenAI: GPT-5.3 Chat
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)2.93sردِعمل کا وقت (زیادہ سے زیادہ)3.05sردِعمل کا وقت (کل)8.78sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
2.93sردِعمل کا وقت (اوسط)…
1,726آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
ٹول کالنگ
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
Anthropic: Claude Opus 4.6
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)9.73sردِعمل کا وقت (زیادہ سے زیادہ)9.73sردِعمل کا وقت (کل)9.73sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
9.73sردِعمل کا وقت (اوسط)…
861آؤٹ پٹ ٹوکنز…
329ریزننگ ٹوکنز…
OpenAI: GPT-5.3 Chat
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)8.36sردِعمل کا وقت (زیادہ سے زیادہ)8.36sردِعمل کا وقت (کل)8.36sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…