Eșecuri pe categorii AI BENCHY
Cultură generală: Răspuns greșit
Cultură generală
Răspuns greșit
Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Cultură generală, ca să găsești mai repede punctele slabe.
Motive de eșec
133/133
Filtrează modelele
Niciun model nu corespunde căutării și filtrelor curente.
| Rang | Model | Companie | Număr de Răspuns greșit | Scor de categorie | Cost total | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|---|
| #76 | MiMo-V2.5 medium | Xiaomi | 1 | 3.0 | $0.063 | 0/1 | 51.3s |
| #77 | Mimo V2 PRO medium | Xiaomi | 1 | 3.0 | $0.333 | 0/1 | 82.7s |
| #78 | gpt-oss-120b medium | OpenAI | 1 | 3.0 | $0.013 | 0/1 | 26.5s |
| #79 | GPT-5 Nano medium | OpenAI | 1 | 3.0 | $0.081 | 0/1 | 20.1s |
| #80 | Step 3.5 Flash medium | Stepfun | 1 | 3.0 | $0.070 | 0/1 | 108.4s |
| #81 | Qwen3.6 27B medium | Qwen | 1 | 3.0 | $0.440 | 0/1 | 81.0s |
| #82 | Gemini 3.1 Flash Lite Preview low | 1 | 3.0 | $0.026 | 0/1 | 1.35s | |
| #84 | Gemini 3.1 Flash Lite Preview none | 1 | 3.0 | $0.018 | 0/1 | 814ms | |
| #85 | Gemini 3.1 Flash Lite low | 1 | 3.0 | $0.028 | 0/1 | 1.46s | |
| #86 | Hy3 preview low | Tencent | 1 | 3.0 | $0.018 | 0/1 | 41.7s |
| #87 | Nemotron 3 Super medium | NVIDIA | 1 | 3.0 | $0.021 | 0/1 | 55.3s |
| #88 | Gemma 4 31B medium | 1 | 3.0 | $0.033 | 0/1 | 90.1s | |
| #89 | Qwen3.5-35B-A3B medium | Qwen | 1 | 3.0 | $0.401 | 0/1 | 177.4s |
| #90 | GPT-5.5 none | OpenAI | 1 | 3.0 | $0.231 | 0/1 | 5.01s |
| #92 | Seed-2.0-Lite none | Bytedance Seed | 1 | 3.0 | $0.019 | 0/1 | 1.96s |