Eșecuri pe categorii AI BENCHY
Cultură generală: Răspuns greșit
Cultură generală
Răspuns greșit
Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Cultură generală, ca să găsești mai repede punctele slabe. Sortează după: Număr de eșecuri ↑.
Motive de eșec
133/133
Filtrează modelele
Niciun model nu corespunde căutării și filtrelor curente.
| Rang | Model | Companie | Număr de Răspuns greșit | Scor de categorie | Cost total | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|---|
| #3 | Qwen3.7 Max medium | Qwen | 1 | 3.0 | $0.523 | 0/1 | 33.4s |
| #4 | GPT-5.5 low | OpenAI | 1 | 3.0 | $0.907 | 0/1 | 10.1s |
| #9 | GPT-5.5 medium | OpenAI | 1 | 2.8 | $3.679 | 0/1 | 37.9s |
| #10 | GPT-5.3-Codex medium | OpenAI | 1 | 2.8 | $0.740 | 0/1 | 14.4s |
| #11 | Qwen3.6 Max Preview medium | Qwen | 1 | 3.0 | $0.960 | 0/1 | 60.6s |
| #13 | Claude Opus 4.7 medium | Anthropic | 1 | 3.0 | $0.679 | 0/1 | 2.25s |
| #15 | GLM 5 medium | Z.ai | 1 | 3.0 | $0.228 | 0/1 | 67.4s |
| #16 | GPT-5 Mini medium | OpenAI | 1 | 3.0 | $0.159 | 0/1 | 9.99s |
| #17 | GPT-5.4 medium | OpenAI | 1 | 3.0 | $1.210 | 0/1 | 14.0s |
| #18 | Seed-2.0-Lite medium | Bytedance Seed | 1 | 3.0 | $0.175 | 0/1 | 48.3s |
| #19 | GPT-5.2 Chat none | OpenAI | 1 | 3.0 | $0.393 | 0/1 | 6.89s |
| #21 | GLM 5 Turbo medium | Z.ai | 1 | 3.0 | $0.323 | 0/1 | 40.2s |
| #22 | GPT-5.2 medium | OpenAI | 1 | 3.0 | $0.548 | 0/1 | 28.2s |
| #23 | DeepSeek V4 Flash high | DeepSeek | 1 | 3.0 | $0.027 | 0/1 | 54.5s |
| #24 | Gemini 2.5 Flash medium | 1 | 3.0 | $0.379 | 0/1 | 2.76s |