AI BENCHY श्रेणी
डेटा पार्सिंग आणि निष्कर्षण क्रमवारी
डेटा पार्सिंग आणि निष्कर्षण मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.
| क्रमांक | मॉडेल | कंपनी | डेटा पार्सिंग आणि निष्कर्षण स्कोअर | स्कोअर | बरोबर चाचण्या | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|
| #33 | Hy3 preview medium | Tencent | 6.5 | 7.7 | 1/2 | 5.25s |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 7.3 | 7.5 | 1/2 | 18.8s |
| #49 | Qwen3.5-Flash medium | Qwen | 7.3 | 7.4 | 1/2 | 57.0s |
| #51 | Mimo V2 PRO medium | Xiaomi | 7.3 | 7.4 | 1/2 | 17.2s |
| #57 | Step 3.7 Flash low | Stepfun | 7.3 | 7.3 | 1/2 | 2.29s |
| #64 | MiMo-V2-Flash medium | Xiaomi | 6.5 | 7.2 | 1/2 | 0ms |
| #66 | Qwen3.5-35B-A3B medium | Qwen | 7.3 | 7.1 | 1/2 | 59.3s |
| #68 | Claude Opus 4.8 none | Anthropic | 7.3 | 7.0 | 1/2 | 1.77s |
| #75 | Ring-2.6-1T medium | Inclusionai | 6.5 | 6.9 | 1/2 | 37.4s |
| #81 | Mercury 2 medium | Inception | 7.3 | 6.6 | 1/2 | 1.11s |
| #82 | Hy3 preview high | Tencent | 6.5 | 6.6 | 1/2 | 12.1s |
| #89 | Hy3 preview low | Tencent | 6.5 | 6.4 | 1/2 | 5.85s |
| #99 | gpt-oss-120b medium | OpenAI | 6.4 | 6.1 | 1/2 | 1.98s |
| #103 | DeepSeek V4 Pro high | DeepSeek | 7.3 | 6.0 | 1/2 | 23.6s |
| #107 | Laguna Xs.2 medium | Poolside | 7.1 | 5.8 | 1/2 | 9.34s |