کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںاضافی فارمیٹنگ: 4غلط جواب: 2ردِعمل کا وقت (اوسط)25.08sردِعمل کا وقت (زیادہ سے زیادہ)83.40sردِعمل کا وقت (کل)200.67sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 8ہدایات پر عمل نہیں کیا: 1ردِعمل کا وقت (اوسط)1.46sردِعمل کا وقت (زیادہ سے زیادہ)2.89sردِعمل کا وقت (کل)21.86sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
تسلسل
8.9تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
8.9تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
فی نتیجہ لاگت
14.411یہ بینچ مارک کے ہر درست جواب کی اوسط لاگت سینٹس میں دکھاتا ہے (کم ہونا بہتر ہے)۔…
1.496یہ بینچ مارک کے ہر درست جواب کی اوسط لاگت سینٹس میں دکھاتا ہے (کم ہونا بہتر ہے)۔…
کل لاگت
$1.297کل لاگت…
$0.090کل لاگت…
فی کوشش کامیابی کی شرح
64.4%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
44.4%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
غیر مستحکم ٹیسٹ
2غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
2غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
common.totalRuns
45 (15 x 3)common.totalRuns…
45 (15 x 3)common.totalRuns…
آؤٹ پٹ ٹوکنز
26,066آؤٹ پٹ ٹوکنز…
1,635آؤٹ پٹ ٹوکنز…
ریزننگ ٹوکنز
17,071ریزننگ ٹوکنز…
0ریزننگ ٹوکنز…
ردِعمل کا وقت (اوسط)
25.08sردِعمل کا وقت (اوسط)…
1.46sردِعمل کا وقت (اوسط)…
ردِعمل کا وقت (زیادہ سے زیادہ)
83.40sردِعمل کا وقت (زیادہ سے زیادہ)…
2.89sردِعمل کا وقت (زیادہ سے زیادہ)…
ردِعمل کا وقت (کل)
200.67sردِعمل کا وقت (کل)…
21.86sردِعمل کا وقت (کل)…
اسکور کے لحاظ سے سرفہرست ماڈلز
اسکور بمقابلہ کل لاگت
ردِعمل کا وقت (اوسط)
اوسط اسکور vs ردِعمل کا وقت (اوسط)
زمرہ وار تفصیل
اینٹی اے آئی چالیں
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
Anthropic: Claude Opus 4.6
4.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
4.4تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
55.6%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
2غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںاضافی فارمیٹنگ: 2ردِعمل کا وقت (اوسط)11.88sردِعمل کا وقت (زیادہ سے زیادہ)11.88sردِعمل کا وقت (کل)11.88sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
11.88sردِعمل کا وقت (اوسط)…
897آؤٹ پٹ ٹوکنز…
1,000ریزننگ ٹوکنز…
OpenAI: GPT-5.4
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
7.3تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
11.1%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
1غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 3ردِعمل کا وقت (اوسط)1.41sردِعمل کا وقت (زیادہ سے زیادہ)2.58sردِعمل کا وقت (کل)4.23sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
1.41sردِعمل کا وقت (اوسط)…
388آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
مشترکہ
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
Anthropic: Claude Opus 4.6
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)76.66sردِعمل کا وقت (زیادہ سے زیادہ)76.66sردِعمل کا وقت (کل)76.66sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
76.66sردِعمل کا وقت (اوسط)…
8,178آؤٹ پٹ ٹوکنز…
5,194ریزننگ ٹوکنز…
OpenAI: GPT-5.4
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
0.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 1ردِعمل کا وقت (اوسط)2.89sردِعمل کا وقت (زیادہ سے زیادہ)2.89sردِعمل کا وقت (کل)2.89sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
2.89sردِعمل کا وقت (اوسط)…
291آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
ڈیٹا پارسنگ اور استخراج
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
Anthropic: Claude Opus 4.6
9.9تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)7.37sردِعمل کا وقت (زیادہ سے زیادہ)7.37sردِعمل کا وقت (کل)7.37sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
7.37sردِعمل کا وقت (اوسط)…
691آؤٹ پٹ ٹوکنز…
757ریزننگ ٹوکنز…
OpenAI: GPT-5.4
9.9تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)1.04sردِعمل کا وقت (زیادہ سے زیادہ)1.06sردِعمل کا وقت (کل)2.08sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
1.04sردِعمل کا وقت (اوسط)…
222آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
ڈومین مخصوص
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
Anthropic: Claude Opus 4.6
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
0.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںاضافی فارمیٹنگ: 2غلط جواب: 1ردِعمل کا وقت (اوسط)83.40sردِعمل کا وقت (زیادہ سے زیادہ)83.40sردِعمل کا وقت (کل)83.40sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
83.40sردِعمل کا وقت (اوسط)…
14,642آؤٹ پٹ ٹوکنز…
8,687ریزننگ ٹوکنز…
OpenAI: GPT-5.4
4.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
7.2تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
44.4%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
1غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 2ردِعمل کا وقت (اوسط)1.07sردِعمل کا وقت (زیادہ سے زیادہ)1.54sردِعمل کا وقت (کل)3.22sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
1.07sردِعمل کا وقت (اوسط)…
50آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
ہدایات کی پیروی
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
Anthropic: Claude Opus 4.6
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)2.43sردِعمل کا وقت (زیادہ سے زیادہ)2.43sردِعمل کا وقت (کل)2.43sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
2.43sردِعمل کا وقت (اوسط)…
266آؤٹ پٹ ٹوکنز…
467ریزننگ ٹوکنز…
OpenAI: GPT-5.4
5.5تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
50.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 1ردِعمل کا وقت (اوسط)1.07sردِعمل کا وقت (زیادہ سے زیادہ)1.17sردِعمل کا وقت (کل)2.15sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
1.07sردِعمل کا وقت (اوسط)…
81آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
Puzzle Solving
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
Anthropic: Claude Opus 4.6
7.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
66.7%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 1ردِعمل کا وقت (اوسط)4.60sردِعمل کا وقت (زیادہ سے زیادہ)4.66sردِعمل کا وقت (کل)9.20sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
4.60sردِعمل کا وقت (اوسط)…
531آؤٹ پٹ ٹوکنز…
637ریزننگ ٹوکنز…
OpenAI: GPT-5.4
4.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
9.8تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
33.3%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںہدایات پر عمل نہیں کیا: 1غلط جواب: 1ردِعمل کا وقت (اوسط)1.52sردِعمل کا وقت (زیادہ سے زیادہ)1.82sردِعمل کا وقت (کل)4.56sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
1.52sردِعمل کا وقت (اوسط)…
357آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
ٹول کالنگ
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
Anthropic: Claude Opus 4.6
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)9.73sردِعمل کا وقت (زیادہ سے زیادہ)9.73sردِعمل کا وقت (کل)9.73sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
9.73sردِعمل کا وقت (اوسط)…
861آؤٹ پٹ ٹوکنز…
329ریزننگ ٹوکنز…
OpenAI: GPT-5.4
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)2.75sردِعمل کا وقت (زیادہ سے زیادہ)2.75sردِعمل کا وقت (کل)2.75sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…