AI BENCHY श्रेणी
डोमेन-विशिष्ट क्रमवारी
डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.
| क्रमांक | मॉडेल | कंपनी | डोमेन-विशिष्ट स्कोअर | स्कोअर | बरोबर चाचण्या | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|
| #81 | Mercury 2 medium | Inception | 2.9 | 6.6 | 0/3 | 6.48s |
| #84 | Grok 4.20 Multi Agent Beta medium | X AI | 2.9 | 6.6 | 0/3 | 24.7s |
| #87 | Gemini 3.1 Flash Lite minimal | 2.9 | 6.4 | 0/3 | 1.02s | |
| #90 | Gemini 3.1 Flash Lite none | 2.9 | 6.4 | 0/3 | 762ms | |
| #91 | GPT-5.5 none | OpenAI | 2.9 | 6.4 | 0/3 | 1.31s |
| #103 | DeepSeek V4 Pro high | DeepSeek | 2.9 | 6.0 | 0/3 | 205.7s |
| #112 | GLM 5.1 none | Z.ai | 2.9 | 5.7 | 0/3 | 1.99s |
| #133 | DeepSeek V3.2 none | DeepSeek | 2.9 | 5.2 | 0/3 | 4.17s |
| #149 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 2.9 | 4.6 | 0/3 | 56.7s |
| #40 | Gemini 3.1 Flash Lite Preview medium | 3.0 | 7.5 | 0/3 | 4.21s | |
| #69 | Claude Opus 4.6 medium | Anthropic | 3.0 | 7.0 | 0/3 | 83.4s |
| #73 | Seed-2.0-Mini medium | Bytedance Seed | 3.0 | 6.9 | 0/3 | 0ms |
| #79 | Hunter Alpha medium | OpenRouter | 3.0 | 6.7 | 0/3 | 10.5s |
| #80 | Mimo V2 Omni medium | Xiaomi | 3.0 | 6.7 | 0/3 | 47.9s |
| #88 | Qwen3.7 Plus none | Qwen | 3.0 | 6.4 | 0/3 | 868ms |