8.5تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
9.6تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
فی نتیجہ لاگت
6.601یہ بینچ مارک کے ہر درست جواب کی اوسط لاگت سینٹس میں دکھاتا ہے (کم ہونا بہتر ہے)۔…
0.172یہ بینچ مارک کے ہر درست جواب کی اوسط لاگت سینٹس میں دکھاتا ہے (کم ہونا بہتر ہے)۔…
کل لاگت
$0.793کل لاگت…
$0.016کل لاگت…
درست ٹیسٹس
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںہدایات پر عمل نہیں کیا: 2غلط جواب: 2ردِعمل کا وقت (اوسط)20.05sردِعمل کا وقت (زیادہ سے زیادہ)100.41sردِعمل کا وقت (کل)320.87sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 7ردِعمل کا وقت (اوسط)2.65sردِعمل کا وقت (زیادہ سے زیادہ)6.65sردِعمل کا وقت (کل)26.52sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
فی کوشش کامیابی کی شرح
83.3%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
58.3%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
غیر مستحکم ٹیسٹ
3غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
1غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کل رنز
48 (16 x 3)کل رنز…
48 (16 x 3)کل رنز…
آؤٹ پٹ ٹوکنز
1,756آؤٹ پٹ ٹوکنز…
2,015آؤٹ پٹ ٹوکنز…
ریزننگ ٹوکنز
46,642ریزننگ ٹوکنز…
0ریزننگ ٹوکنز…
ردِعمل کا وقت (اوسط)
20.05sردِعمل کا وقت (اوسط)…
2.65sردِعمل کا وقت (اوسط)…
ردِعمل کا وقت (زیادہ سے زیادہ)
100.41sردِعمل کا وقت (زیادہ سے زیادہ)…
6.65sردِعمل کا وقت (زیادہ سے زیادہ)…
ردِعمل کا وقت (کل)
320.87sردِعمل کا وقت (کل)…
26.52sردِعمل کا وقت (کل)…
اسکور کے لحاظ سے سرفہرست ماڈلز
اسکور بمقابلہ کل لاگت
ردِعمل کا وقت (اوسط)
اوسط اسکور vs ردِعمل کا وقت (اوسط)
زمرہ وار تفصیل
اینٹی اے آئی چالیں
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
OpenAI: GPT-5.4
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)5.02sردِعمل کا وقت (زیادہ سے زیادہ)6.42sردِعمل کا وقت (کل)15.06sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
5.02sردِعمل کا وقت (اوسط)…
216آؤٹ پٹ ٹوکنز…
1,466ریزننگ ٹوکنز…
Qwen: Qwen3.5 Plus 2026-02-15
4.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
33.3%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 2ردِعمل کا وقت (اوسط)2.74sردِعمل کا وقت (زیادہ سے زیادہ)2.74sردِعمل کا وقت (کل)2.74sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
2.74sردِعمل کا وقت (اوسط)…
514آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
مشترکہ
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
OpenAI: GPT-5.4
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)20.57sردِعمل کا وقت (زیادہ سے زیادہ)20.57sردِعمل کا وقت (کل)20.57sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
20.57sردِعمل کا وقت (اوسط)…
301آؤٹ پٹ ٹوکنز…
3,543ریزننگ ٹوکنز…
Qwen: Qwen3.5 Plus 2026-02-15
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
0.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 1ردِعمل کا وقت (اوسط)6.65sردِعمل کا وقت (زیادہ سے زیادہ)6.65sردِعمل کا وقت (کل)6.65sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
6.65sردِعمل کا وقت (اوسط)…
314آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
ڈیٹا پارسنگ اور استخراج
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
OpenAI: GPT-5.4
9.9تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)5.32sردِعمل کا وقت (زیادہ سے زیادہ)5.40sردِعمل کا وقت (کل)10.64sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
5.32sردِعمل کا وقت (اوسط)…
234آؤٹ پٹ ٹوکنز…
804ریزننگ ٹوکنز…
Qwen: Qwen3.5 Plus 2026-02-15
9.9تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)1.89sردِعمل کا وقت (زیادہ سے زیادہ)1.89sردِعمل کا وقت (کل)1.89sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
1.89sردِعمل کا وقت (اوسط)…
243آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
ڈومین مخصوص
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
OpenAI: GPT-5.4
4.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
7.2تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
44.4%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
1غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 2ردِعمل کا وقت (اوسط)74.27sردِعمل کا وقت (زیادہ سے زیادہ)100.41sردِعمل کا وقت (کل)222.80sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
74.27sردِعمل کا وقت (اوسط)…
61آؤٹ پٹ ٹوکنز…
34,748ریزننگ ٹوکنز…
Qwen: Qwen3.5 Plus 2026-02-15
4.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
33.3%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 2ردِعمل کا وقت (اوسط)1.17sردِعمل کا وقت (زیادہ سے زیادہ)1.44sردِعمل کا وقت (کل)2.33sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
1.17sردِعمل کا وقت (اوسط)…
17آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
عمومی ذہانت
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
OpenAI: GPT-5.4
5.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
3.1تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
33.3%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
1غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںہدایات پر عمل نہیں کیا: 1ردِعمل کا وقت (اوسط)4.92sردِعمل کا وقت (زیادہ سے زیادہ)4.92sردِعمل کا وقت (کل)4.92sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
4.92sردِعمل کا وقت (اوسط)…
145آؤٹ پٹ ٹوکنز…
321ریزننگ ٹوکنز…
Qwen: Qwen3.5 Plus 2026-02-15
4.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
3.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
33.3%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
1غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 1ردِعمل کا وقت (اوسط)2.26sردِعمل کا وقت (زیادہ سے زیادہ)2.26sردِعمل کا وقت (کل)2.26sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
2.26sردِعمل کا وقت (اوسط)…
117آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
ہدایات کی پیروی
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
OpenAI: GPT-5.4
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)3.11sردِعمل کا وقت (زیادہ سے زیادہ)3.68sردِعمل کا وقت (کل)6.22sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
3.11sردِعمل کا وقت (اوسط)…
93آؤٹ پٹ ٹوکنز…
897ریزننگ ٹوکنز…
Qwen: Qwen3.5 Plus 2026-02-15
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)1.67sردِعمل کا وقت (زیادہ سے زیادہ)1.67sردِعمل کا وقت (کل)1.67sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
1.67sردِعمل کا وقت (اوسط)…
72آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
Puzzle Solving
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
OpenAI: GPT-5.4
7.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
7.2تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
88.9%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
1غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںہدایات پر عمل نہیں کیا: 1ردِعمل کا وقت (اوسط)9.13sردِعمل کا وقت (زیادہ سے زیادہ)18.14sردِعمل کا وقت (کل)27.39sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
9.13sردِعمل کا وقت (اوسط)…
442آؤٹ پٹ ٹوکنز…
3,832ریزننگ ٹوکنز…
Qwen: Qwen3.5 Plus 2026-02-15
7.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
66.7%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںغلط جواب: 1ردِعمل کا وقت (اوسط)2.82sردِعمل کا وقت (زیادہ سے زیادہ)3.52sردِعمل کا وقت (کل)5.65sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
2.82sردِعمل کا وقت (اوسط)…
516آؤٹ پٹ ٹوکنز…
0ریزننگ ٹوکنز…
ٹول کالنگ
اسکور
تسلسل
فی کوشش کامیابی کی شرح
غیر مستحکم ٹیسٹ
درست ٹیسٹس
ردِعمل کا وقت (اوسط)
آؤٹ پٹ ٹوکنز
ریزننگ ٹوکنز
OpenAI: GPT-5.4
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)13.28sردِعمل کا وقت (زیادہ سے زیادہ)13.28sردِعمل کا وقت (کل)13.28sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…
13.28sردِعمل کا وقت (اوسط)…
264آؤٹ پٹ ٹوکنز…
1,031ریزننگ ٹوکنز…
Qwen: Qwen3.5 Plus 2026-02-15
10.0تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔…
10.0تسلسل اسکور رنز کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم چاہے مسلسل غلط ہو).…
100.0%فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام رنز میں کل کوششیں…
0غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).…
کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوںکوئی ناکام جواب نہیں۔ردِعمل کا وقت (اوسط)3.33sردِعمل کا وقت (زیادہ سے زیادہ)3.33sردِعمل کا وقت (کل)3.33sکوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں…