AI BENCHY
موازنہ کریں چارٹس طریقہ کار
❤️ Made by XCS
Your ad here

AI BENCHY زمرہ ناکامیاں

اینٹی اے آئی چالیں
ہدایات پر عمل نہیں کیا

دیکھیں کہ اینٹی اے آئی چالیں میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

12

کل ناکامیاں

12

سب سے زیادہ متاثر ماڈل

Gemini 3.1 Flash Lite Preview 1
درجہ ماڈل کمپنی ہدایات پر عمل نہیں کیا کی تعداد زمرہ اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#22 Gemini 3.1 Flash Lite Preview none Google 1 6.0 1/3 1.16s
#36 Mercury 2 medium Inception 1 7.3 2/3 1.30s
#53 Grok 4.1 Fast none X AI 1 1.3 0/3 1.73s
#12 Gemini 3.1 Flash Lite Preview medium Google 1 9.0 2/3 2.53s
#48 Qwen3 Coder Next none Qwen 1 2.3 0/3 4.39s
#19 GPT-5.3 Chat none OpenAI 1 7.3 2/3 4.72s
#27 GPT-5.2 medium OpenAI 1 7.0 2/3 14.3s
#50 Qwen3 Coder Next medium Qwen 1 1.3 0/3 15.3s
#32 GPT-5 Mini medium OpenAI 1 7.0 2/3 16.5s
#39 gpt-oss-120b medium OpenAI 1 7.0 2/3 19.8s
#52 GLM 4.7 Flash medium Z.ai 1 4.0 1/3 27.1s
#43 MiniMax M2.5 medium Minimax 1 9.3 2/3 32.4s

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اوسط اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز