AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY زمرہ ناکامیاں

اینٹی اے آئی چالیں: ہدایات پر عمل نہیں کیا

اینٹی اے آئی چالیں
ہدایات پر عمل نہیں کیا

دیکھیں کہ اینٹی اے آئی چالیں میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

15

کل ناکامیاں

17

سب سے زیادہ متاثر ماڈل

Elephant 1
درجہ ماڈل کمپنی ہدایات پر عمل نہیں کیا کی تعداد زمرہ اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#85 Elephant none Openrouter 1 6.6 2/4 963ms
#29 Gemini 3.1 Flash Lite Preview none Google 1 7.5 2/4 1.04s
#95 Grok 4.1 Fast none X AI 1 3.2 0/4 1.07s
#54 Mercury 2 medium Inception 1 6.9 2/4 1.12s
#17 Gemini 3.1 Flash Lite Preview medium Google 1 9.1 3/4 2.33s
#87 Qwen3 Coder Next none Qwen 1 3.6 0/4 3.31s
#36 GPT-5.3 Chat none OpenAI 1 6.7 2/4 3.86s
#84 gpt-oss-120b none OpenAI 1 6.6 2/4 6.03s
#40 GPT-5.2 medium OpenAI 1 6.5 2/4 7.81s
#92 Qwen3 Coder Next medium Qwen 1 3.5 0/4 8.64s
#68 gpt-oss-120b medium OpenAI 1 6.7 2/4 10.2s
#31 GLM 5V Turbo medium Z.ai 1 7.2 2/4 10.8s
#34 Kimi K2.6 medium Moonshot AI 1 7.0 2/4 11.6s
#45 GPT-5 Mini medium OpenAI 1 7.1 2/4 13.9s
#93 GLM 4.7 Flash medium Z.ai 1 4.7 1/4 15.0s

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز