کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 4ہدایات پر عمل نہیں کیا: 1ردِعمل کا وقت (اوسط)7.03sردِعمل کا وقت (زیادہ سے زیادہ)38.52sردِعمل کا وقت (کل)112.51sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 3API خرابی: 1ہدایات پر عمل نہیں کیا: 1ردِعمل کا وقت (اوسط)25.33sردِعمل کا وقت (زیادہ سے زیادہ)96.01sردِعمل کا وقت (کل)253.33sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
تسلسل
9.1تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
9.5تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
فی نتیجہ لاگت
2.440یہ بینچ مارک کے ہر درست جواب کی اوسط لاگت سینٹس میں دکھاتا ہے (کم ہونا بہتر ہے)۔…
0.316یہ بینچ مارک کے ہر درست جواب کی اوسط لاگت سینٹس میں دکھاتا ہے (کم ہونا بہتر ہے)۔…
کل لاگت
$0.269کل لاگت…
$0.035کل لاگت…
فی کوشش کامیابی کی شرح
75.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
72.9%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
غیر مستحکم ٹیسٹ
2غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
1غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
common.totalRuns
48 (16 x 3)common.totalRuns…
48 (16 x 3)common.totalRuns…
آؤٹ پٹ ٹوکنز
15,845آؤٹ پٹ ٹوکنز…
11,613آؤٹ پٹ ٹوکنز…
ریزننگ ٹوکنز
0ریزننگ ٹوکنز…
106,714ریزننگ ٹوکنز…
ردِعمل کا وقت (اوسط)
7.03sردِعمل کا وقت (اوسط)…
25.33sردِعمل کا وقت (اوسط)…
ردِعمل کا وقت (زیادہ سے زیادہ)
38.52sردِعمل کا وقت (زیادہ سے زیادہ)…
96.01sردِعمل کا وقت (زیادہ سے زیادہ)…
ردِعمل کا وقت (کل)
112.51sردِعمل کا وقت (کل)…
253.33sردِعمل کا وقت (کل)…
اسکور کے لحاظ سے سرفہرست ماڈلز
اسکور بمقابلہ کل لاگت
ردِعمل کا وقت (اوسط)
اوسط اسکور vs ردِعمل کا وقت (اوسط)
زمرہ وار تفصیل
اینٹی اے آئی چالیں
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
OpenAI: GPT-5.2 Chat
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)3.97sردِعمل کا وقت (زیادہ سے زیادہ)4.78sردِعمل کا وقت (کل)11.90sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
3.97sردِعمل کا وقت (اوسط)…
1,651آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
Xiaomi: MiMo-V2-Flash
9.7تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)16.79sردِعمل کا وقت (زیادہ سے زیادہ)20.83sردِعمل کا وقت (کل)33.57sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
16.79sردِعمل کا وقت (اوسط)…
1,328آؤٹ پٹ ٹوکنز…
18,739ریزننگ ٹوکنز…
مشترکہ
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
OpenAI: GPT-5.2 Chat
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)9.12sردِعمل کا وقت (زیادہ سے زیادہ)9.12sردِعمل کا وقت (کل)9.12sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
9.12sردِعمل کا وقت (اوسط)…
1,243آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
Xiaomi: MiMo-V2-Flash
9.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)75.68sردِعمل کا وقت (زیادہ سے زیادہ)75.68sردِعمل کا وقت (کل)75.68sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
75.68sردِعمل کا وقت (اوسط)…
442آؤٹ پٹ ٹوکنز…
26,859ریزننگ ٹوکنز…
ڈیٹا پارسنگ اور استخراج
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
OpenAI: GPT-5.2 Chat
9.9تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)3.05sردِعمل کا وقت (زیادہ سے زیادہ)3.33sردِعمل کا وقت (کل)6.10sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
3.05sردِعمل کا وقت (اوسط)…
980آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
Xiaomi: MiMo-V2-Flash
5.5تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
50.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںAPI خرابی: 1ردِعمل کا وقت (اوسط)0msردِعمل کا وقت (زیادہ سے زیادہ)0msردِعمل کا وقت (کل)0msکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
0msردِعمل کا وقت (اوسط)…
153آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
ڈومین مخصوص
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
OpenAI: GPT-5.2 Chat
4.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
33.3%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 2ردِعمل کا وقت (اوسط)17.78sردِعمل کا وقت (زیادہ سے زیادہ)38.52sردِعمل کا وقت (کل)53.33sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
17.78sردِعمل کا وقت (اوسط)…
7,810آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
Xiaomi: MiMo-V2-Flash
4.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
7.2تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
55.6%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
1غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 2ردِعمل کا وقت (اوسط)96.01sردِعمل کا وقت (زیادہ سے زیادہ)96.01sردِعمل کا وقت (کل)96.01sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
96.01sردِعمل کا وقت (اوسط)…
8,374آؤٹ پٹ ٹوکنز…
42,461ریزننگ ٹوکنز…
عمومی ذہانت
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
OpenAI: GPT-5.2 Chat
4.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
3.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
33.3%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
1غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںہدایات پر عمل نہیں کیا: 1ردِعمل کا وقت (اوسط)3.20sردِعمل کا وقت (زیادہ سے زیادہ)3.20sردِعمل کا وقت (کل)3.20sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
3.20sردِعمل کا وقت (اوسط)…
335آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
Xiaomi: MiMo-V2-Flash
3.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
0.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںہدایات پر عمل نہیں کیا: 1ردِعمل کا وقت (اوسط)4.20sردِعمل کا وقت (زیادہ سے زیادہ)4.20sردِعمل کا وقت (کل)4.20sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
4.20sردِعمل کا وقت (اوسط)…
87آؤٹ پٹ ٹوکنز…
488ریزننگ ٹوکنز…
ہدایات کی پیروی
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
OpenAI: GPT-5.2 Chat
6.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
6.1تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
83.3%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
1غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 1ردِعمل کا وقت (اوسط)5.46sردِعمل کا وقت (زیادہ سے زیادہ)6.45sردِعمل کا وقت (کل)10.92sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
5.46sردِعمل کا وقت (اوسط)…
1,528آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
Xiaomi: MiMo-V2-Flash
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)4.28sردِعمل کا وقت (زیادہ سے زیادہ)7.37sردِعمل کا وقت (کل)8.55sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
4.28sردِعمل کا وقت (اوسط)…
75آؤٹ پٹ ٹوکنز…
3,504ریزننگ ٹوکنز…
Puzzle Solving
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
OpenAI: GPT-5.2 Chat
7.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
66.7%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 1ردِعمل کا وقت (اوسط)4.42sردِعمل کا وقت (زیادہ سے زیادہ)5.04sردِعمل کا وقت (کل)13.27sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
4.42sردِعمل کا وقت (اوسط)…
1,743آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
Xiaomi: MiMo-V2-Flash
7.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
66.7%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 1ردِعمل کا وقت (اوسط)3.77sردِعمل کا وقت (زیادہ سے زیادہ)5.26sردِعمل کا وقت (کل)7.55sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
3.77sردِعمل کا وقت (اوسط)…
833آؤٹ پٹ ٹوکنز…
1,948ریزننگ ٹوکنز…
ٹول کالنگ
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
OpenAI: GPT-5.2 Chat
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)4.68sردِعمل کا وقت (زیادہ سے زیادہ)4.68sردِعمل کا وقت (کل)4.68sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
4.68sردِعمل کا وقت (اوسط)…
555آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
Xiaomi: MiMo-V2-Flash
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)27.78sردِعمل کا وقت (زیادہ سے زیادہ)27.78sردِعمل کا وقت (کل)27.78sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…