نیویگیشن
AI BENCHY
موازنہ کریں چارٹس
❤️ Made by XCS
Your ad here

AI BENCHY Compare

موازنہ کیے گئے ماڈلز

موازنہ کریں:

بینچ مارکس AI BENCHY ٹیسٹ سوئٹس سے اس وقت تیار کیے گئے: 2026-03-05

میٹرک OpenAI: GPT-5.4 medium اجرا: 2026-03-05 OpenAI: GPT-5.3-Codex medium اجرا: 2026-02-05 OpenAI: GPT-5.2 medium اجرا: 2025-12-11
درجہ #7 #4 #26
اوسط اسکور 82 87 69
تسلسل 89 90 78
فی نتیجہ لاگت 6.533 4.418 3.057
کل لاگت $0.784 $0.531 $0.306
درست ٹیسٹس
فی کوشش کامیابی کی شرح 86.7% 88.9% 80.0%
غیر مستحکم ٹیسٹ 2 2 4
آؤٹ پٹ ٹوکنز 1,611 1,577 2,058
ریزننگ ٹوکنز 46,321 33,017 16,542

اسکور کے لحاظ سے سرفہرست ماڈلز

اسکور بمقابلہ کل لاگت

زمرہ وار تفصیل

اینٹی اے آئی چالیں اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
OpenAI: GPT-5.4 100 100 100.0% 0 216 1,466
OpenAI: GPT-5.3-Codex 100 100 100.0% 0 216 1,421
OpenAI: GPT-5.2 70 73 77.8% 1 549 2,002
مشترکہ اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
OpenAI: GPT-5.4 100 100 100.0% 0 301 3,543
OpenAI: GPT-5.3-Codex 100 100 100.0% 0 364 2,731
OpenAI: GPT-5.2 100 100 100.0% 0 291 1,757
ڈیٹا پارسنگ اور استخراج اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
OpenAI: GPT-5.4 99 100 100.0% 0 234 804
OpenAI: GPT-5.3-Codex 99 100 100.0% 0 234 728
OpenAI: GPT-5.2 99 100 100.0% 0 234 420
ڈومین مخصوص اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
OpenAI: GPT-5.4 40 72 44.4% 1 61 34,748
OpenAI: GPT-5.3-Codex 40 72 55.6% 1 64 25,308
OpenAI: GPT-5.2 40 72 55.6% 1 42 10,342
ہدایات کی پیروی اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
OpenAI: GPT-5.4 100 100 100.0% 0 93 897
OpenAI: GPT-5.3-Codex 100 100 100.0% 0 93 693
OpenAI: GPT-5.2 95 100 100.0% 0 94 614
Puzzle Solving اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
OpenAI: GPT-5.4 70 72 88.9% 1 442 3,832
OpenAI: GPT-5.3-Codex 93 79 88.9% 1 352 1,644
OpenAI: GPT-5.2 70 73 77.8% 1 609 938
ٹول کالنگ اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
OpenAI: GPT-5.4 100 100 100.0% 0 264 1,031
OpenAI: GPT-5.3-Codex 100 100 100.0% 0 254 492
OpenAI: GPT-5.2 100 16 66.7% 1 239 469

فوری موازنہ

موازنہ کی جوڑی تبدیل کریں