AI BENCHY श्रेणी
सूचनांचे पालन क्रमवारी
सूचनांचे पालन मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.
| क्रमांक | मॉडेल | कंपनी | सूचनांचे पालन स्कोअर | स्कोअर | बरोबर चाचण्या | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|
| #78 | Qwen3.6 27B medium | Qwen | 10.0 | 6.8 | 2/2 | 38.0s |
| #79 | Hunter Alpha medium | OpenRouter | 9.9 | 6.7 | 2/2 | 4.18s |
| #81 | Mercury 2 medium | Inception | 10.0 | 6.6 | 2/2 | 1.07s |
| #82 | Hy3 preview high | Tencent | 10.0 | 6.6 | 2/2 | 34.4s |
| #83 | Step 3.5 Flash none | Stepfun | 10.0 | 6.6 | 1/1 | 9.30s |
| #84 | Grok 4.20 Multi Agent Beta medium | X AI | 9.8 | 6.6 | 2/2 | 3.52s |
| #87 | Gemini 3.1 Flash Lite minimal | 10.0 | 6.4 | 2/2 | 932ms | |
| #89 | Hy3 preview low | Tencent | 10.0 | 6.4 | 2/2 | 16.0s |
| #90 | Gemini 3.1 Flash Lite none | 10.0 | 6.4 | 2/2 | 859ms | |
| #92 | Laguna M.1 medium | Poolside | 10.0 | 6.4 | 2/2 | 4.30s |
| #94 | GPT-5 Nano medium | OpenAI | 9.8 | 6.3 | 2/2 | 15.6s |
| #95 | Qwen3.5 Plus 2026-02-15 none | Qwen | 10.0 | 6.3 | 2/2 | 1.67s |
| #96 | Ring-2.6-1T none | Inclusionai | 9.8 | 6.2 | 2/2 | 27.4s |
| #97 | Gemini 2.5 Flash none | 10.0 | 6.2 | 2/2 | 590ms | |
| #98 | GLM 5 none | Z.ai | 10.0 | 6.1 | 2/2 | 1.48s |