Categorie AI BENCHY
Clasament Respectarea instrucțiunilor
Vezi ce modele AI se descurcă cel mai bine la Respectarea instrucțiunilor, care rămân fiabile și unde apar cele mai mari diferențe.
Modele afișate
15
Media pentru Scor Respectarea instrucțiunilor
8.5
Cel mai bun model
Gemini 3 Flash Preview 10.0| Rang | Model | Companie | Scor Respectarea instrucțiunilor | Scor | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #87 | Gemini 3.1 Flash Lite minimal | 10.0 | 6.4 | 2/2 | 932ms | |
| #89 | Hy3 preview low | Tencent | 10.0 | 6.4 | 2/2 | 16.0s |
| #90 | Gemini 3.1 Flash Lite none | 10.0 | 6.4 | 2/2 | 859ms | |
| #92 | Laguna M.1 medium | Poolside | 10.0 | 6.4 | 2/2 | 4.30s |
| #95 | Qwen3.5 Plus 2026-02-15 none | Qwen | 10.0 | 6.3 | 2/2 | 1.67s |
| #97 | Gemini 2.5 Flash none | 10.0 | 6.2 | 2/2 | 590ms | |
| #98 | GLM 5 none | Z.ai | 10.0 | 6.1 | 2/2 | 1.48s |
| #103 | DeepSeek V4 Pro high | DeepSeek | 10.0 | 6.0 | 2/2 | 41.2s |
| #104 | Nemotron 3 Ultra 550b A55b none | NVIDIA | 10.0 | 6.0 | 2/2 | 1.46s |
| #107 | Laguna Xs.2 medium | Poolside | 10.0 | 5.8 | 2/2 | 1.68s |
| #110 | Seed-2.0-Lite none | Bytedance Seed | 10.0 | 5.8 | 2/2 | 1.06s |
| #133 | DeepSeek V3.2 none | DeepSeek | 10.0 | 5.2 | 2/2 | 1.52s |
| #3 | Gemini 3.5 Flash low | 9.9 | 9.4 | 2/2 | 1.86s | |
| #6 | GPT-5.5 low | OpenAI | 9.9 | 9.0 | 2/2 | 3.74s |
| #7 | Gemini 3.5 Flash medium | 9.9 | 9.0 | 2/2 | 2.70s |