Kushindwa kwa kategoria za AI BENCHY
Mahususi kwa domeni: Muundo wa ziada
Mahususi kwa domeni
Muundo wa ziada
Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Muundo wa ziada katika Mahususi kwa domeni, ili uone udhaifu haraka. Panga kwa: Majaribio sahihi ↑.
Sababu za kushindwa
| Nafasi | Modeli | Kampuni | Idadi ya Muundo wa ziada | Alama ya kategoria | Majaribio sahihi | Muda wa majibu (wastani) |
|---|---|---|---|---|---|---|
| #26 | Claude Sonnet 4.6 medium | Anthropic | 1 | 2.9 | 0/3 | 0ms |
| #35 | MiMo-V2-Omni medium | Xiaomi | 1 | 3.0 | 0/3 | 55.1s |
| #37 | Claude Opus 4.6 medium | Anthropic | 2 | 3.0 | 0/3 | 83.4s |
| #50 | Hunter Alpha medium | OpenRouter | 1 | 3.0 | 0/3 | 10.5s |
| #56 | Grok 4.20 Multi Agent Beta medium | X AI | 1 | 2.9 | 0/3 | 24.7s |
| #82 | Grok 4.20 none | X AI | 1 | 3.0 | 0/3 | 687ms |
| #47 | Grok 4.20 medium | X AI | 1 | 5.3 | 1/3 | 27.0s |