Сбои по категориям AI BENCHY
Эрудиция: Неверный ответ
Эрудиция
Неверный ответ
Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Эрудиция, чтобы быстрее находить слабые места.
Причины сбоев
133/133
Фильтровать модели
Нет моделей, соответствующих текущему поиску и фильтрам.
| Ранг | Модель | Компания | Количество Неверный ответ | Оценка категории | Общая стоимость | Тестов верно | Время ответа (среднее) |
|---|---|---|---|---|---|---|---|
| #76 | MiMo-V2.5 medium | Xiaomi | 1 | 3.0 | $0.063 | 0/1 | 51.3s |
| #77 | Mimo V2 PRO medium | Xiaomi | 1 | 3.0 | $0.333 | 0/1 | 82.7s |
| #78 | gpt-oss-120b medium | OpenAI | 1 | 3.0 | $0.013 | 0/1 | 26.5s |
| #79 | GPT-5 Nano medium | OpenAI | 1 | 3.0 | $0.081 | 0/1 | 20.1s |
| #80 | Step 3.5 Flash medium | Stepfun | 1 | 3.0 | $0.070 | 0/1 | 108.4s |
| #81 | Qwen3.6 27B medium | Qwen | 1 | 3.0 | $0.440 | 0/1 | 81.0s |
| #82 | Gemini 3.1 Flash Lite Preview low | 1 | 3.0 | $0.026 | 0/1 | 1.35s | |
| #84 | Gemini 3.1 Flash Lite Preview none | 1 | 3.0 | $0.018 | 0/1 | 814ms | |
| #85 | Gemini 3.1 Flash Lite low | 1 | 3.0 | $0.028 | 0/1 | 1.46s | |
| #86 | Hy3 preview low | Tencent | 1 | 3.0 | $0.018 | 0/1 | 41.7s |
| #87 | Nemotron 3 Super medium | NVIDIA | 1 | 3.0 | $0.021 | 0/1 | 55.3s |
| #88 | Gemma 4 31B medium | 1 | 3.0 | $0.033 | 0/1 | 90.1s | |
| #89 | Qwen3.5-35B-A3B medium | Qwen | 1 | 3.0 | $0.401 | 0/1 | 177.4s |
| #90 | GPT-5.5 none | OpenAI | 1 | 3.0 | $0.231 | 0/1 | 5.01s |
| #92 | Seed-2.0-Lite none | Bytedance Seed | 1 | 3.0 | $0.019 | 0/1 | 1.96s |