AI BENCHY
موازنہ کریں چارٹس طریقہ کار
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY زمرہ ناکامیاں

ڈیٹا پارسنگ اور استخراج
غلط جواب

دیکھیں کہ ڈیٹا پارسنگ اور استخراج میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

11

کل ناکامیاں

14

سب سے زیادہ متاثر ماڈل

Mercury 2 1
درجہ ماڈل کمپنی غلط جواب کی تعداد زمرہ اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#51 Mercury 2 none Inception 1 5.5 1/2 667ms
#55 LFM2-24B-A2B none Liquid 2 10.0 0/2 714ms
#36 Mercury 2 medium Inception 1 5.5 1/2 1.11s
#48 Qwen3 Coder Next none Qwen 1 5.4 1/2 1.32s
#39 gpt-oss-120b medium OpenAI 1 5.5 1/2 1.98s
#49 GLM 4.7 Flash none Z.ai 1 5.4 1/2 4.82s
#43 MiniMax M2.5 medium Minimax 2 10.0 0/2 7.48s
#33 DeepSeek V3.2 none DeepSeek 1 5.4 1/2 9.42s
#34 GPT-5 Nano medium OpenAI 2 10.0 0/2 21.4s
#46 Kimi K2.5 none Moonshot AI 1 5.4 1/2 42.1s
#50 Qwen3 Coder Next medium Qwen 1 5.4 1/2 81.8s

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اوسط اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز