AI BENCHY
موازنہ کریں چارٹس
❤️ Made by XCS
Your ad here

#7

GPT-5.4

OpenAI · اجرا: 2026-03-05 · openai/gpt-5.4::medium

اوسط اسکور

8.2

فی نتیجہ لاگت

6.533

تسلسل

8.9

کل لاگت

$0.784

درست ٹیسٹس

12

کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام رنز کامیاب ہوں

غلط ٹیسٹس

3

فی کوشش کامیابی کی شرح: 86.7%

غیر مستحکم ٹیسٹ

2

غیر مستحکم ٹیسٹس میں رنز کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام).

ردِعمل کا وقت (اوسط)

21.06s

ردِعمل کا وقت (زیادہ سے زیادہ): 100.41s

ردِعمل کا وقت (کل): 315.95s

غلط جواب: 2 ہدایات پر عمل نہیں کیا: 1

اسکور کے لحاظ سے سرفہرست ماڈلز

پہلا ماڈل منتخب کریں، پھر دوسرا ماڈل کلک کریں تاکہ سائیڈ بائی سائیڈ صفحہ کھلے۔

فوری موازنہ

زمرہ وار تفصیل

زمرہ اوسط اسکور تسلسل درست ٹیسٹس
Anti-AI Tricks 10.0 10.0 3/3
Combined 10.0 10.0 1/1
Data parsing and extraction 9.9 10.0 2/2
Domain specific 4.0 7.2 1/3
Instructions following 10.0 10.0 2/2
Puzzle Solving 7.0 7.2 2/3
Tool Calling 10.0 10.0 1/1