Eșecuri pe categorii AI BENCHY
Respectarea instrucțiunilor
Răspuns greșit
Respectarea instrucțiunilor
Răspuns greșit
Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Respectarea instrucțiunilor, ca să găsești mai repede punctele slabe. Sortează după: Timp de răspuns (mediu) ↓.
Motive de eșec asociate
| Rang | Model | Companie | Număr de Răspuns greșit | Scor de categorie | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #37 | Qwen3.5-Flash none | Qwen | 1 | 5.0 | 1/2 | 8.81s |
| #48 | Qwen3 Coder Next none | Qwen | 2 | 4.5 | 0/2 | 7.71s |
| #50 | Qwen3 Coder Next medium | Qwen | 1 | 4.5 | 0/2 | 7.34s |
| #15 | GPT-5.2 Chat none | OpenAI | 1 | 6.0 | 1/2 | 5.46s |
| #19 | GPT-5.3 Chat none | OpenAI | 1 | 9.0 | 1/2 | 3.29s |
| #52 | GLM 4.7 Flash medium | Z.ai | 1 | 5.0 | 1/2 | 2.97s |
| #46 | Kimi K2.5 none | Moonshot AI | 1 | 5.5 | 1/2 | 2.67s |
| #25 | Claude Sonnet 4.6 none | Anthropic | 1 | 5.5 | 1/2 | 1.96s |
| #20 | Gemini 3 Flash Preview none | 1 | 5.5 | 1/2 | 1.58s | |
| #47 | GPT-4o-mini none | OpenAI | 1 | 4.5 | 0/2 | 1.27s |
| #45 | Trinity Large Preview none | Arcee AI | 1 | 3.5 | 0/2 | 1.09s |
| #55 | LFM2-24B-A2B none | Liquid | 2 | 4.5 | 0/2 | 1.09s |
| #44 | GPT-5.4 none | OpenAI | 1 | 5.5 | 1/2 | 1.07s |
| #53 | Grok 4.1 Fast none | X AI | 2 | 10.0 | 0/2 | 923ms |
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 5.5 | 1/2 | 888ms |
| #54 | MiMo-V2-Flash none | Xiaomi | 1 | 5.5 | 1/2 | 857ms |
| #41 | Qwen3.5-27B none | Qwen | 2 | 4.5 | 0/2 | 815ms |
| #42 | Qwen3.5-35B-A3B none | Qwen | 1 | 5.0 | 1/2 | 809ms |
| #38 | Gemini 2.5 Flash none | 1 | 9.0 | 1/2 | 672ms | |
| #40 | Qwen3.5-122B-A10B none | Qwen | 2 | 4.5 | 0/2 | 585ms |
| #51 | Mercury 2 none | Inception | 1 | 5.5 | 1/2 | 551ms |