AI BENCHY زمرہ ناکامیاں
ڈیٹا پارسنگ اور استخراج: غلط جواب
ڈیٹا پارسنگ اور استخراج
غلط جواب
دیکھیں کہ ڈیٹا پارسنگ اور استخراج میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | غلط جواب کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #91 | Mercury 2 none | Inception | 1 | 7.3 | 1/2 | 667ms |
| #98 | LFM2-24B-A2B none | Liquid | 2 | 3.0 | 0/2 | 714ms |
| #81 | Elephant medium | Openrouter | 1 | 6.5 | 1/2 | 979ms |
| #85 | Elephant none | Openrouter | 1 | 6.5 | 1/2 | 1.04s |
| #54 | Mercury 2 medium | Inception | 1 | 7.3 | 1/2 | 1.11s |
| #96 | GPT-5.4 Nano none | OpenAI | 1 | 6.5 | 1/2 | 1.11s |
| #87 | Qwen3 Coder Next none | Qwen | 1 | 6.5 | 1/2 | 1.32s |
| #68 | gpt-oss-120b medium | OpenAI | 1 | 6.4 | 1/2 | 1.98s |
| #74 | GLM 4.7 Flash none | Z.ai | 1 | 7.3 | 1/2 | 4.82s |
| #71 | MiniMax M2.5 medium | Minimax | 2 | 4.6 | 0/2 | 7.48s |
| #64 | DeepSeek V3.2 none | DeepSeek | 1 | 6.3 | 1/2 | 9.42s |
| #23 | MiMo-V2-Pro medium | Xiaomi | 1 | 7.3 | 1/2 | 17.2s |
| #57 | GPT-5 Nano medium | OpenAI | 2 | 3.7 | 0/2 | 21.4s |
| #80 | MiniMax M2.7 medium | Minimax | 1 | 6.3 | 1/2 | 21.9s |
| #76 | Kimi K2.5 none | Moonshot AI | 1 | 7.3 | 1/2 | 42.1s |