Сбои по категориям AI BENCHY
Эрудиция: Неверный ответ
Эрудиция
Неверный ответ
Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Эрудиция, чтобы быстрее находить слабые места.
Причины сбоев
133/133
Фильтровать модели
Нет моделей, соответствующих текущему поиску и фильтрам.
| Ранг | Модель | Компания | Количество Неверный ответ | Оценка категории | Общая стоимость | Тестов верно | Время ответа (среднее) |
|---|---|---|---|---|---|---|---|
| #3 | Qwen3.7 Max medium | Qwen | 1 | 3.0 | $0.523 | 0/1 | 33.4s |
| #4 | GPT-5.5 low | OpenAI | 1 | 3.0 | $0.907 | 0/1 | 10.1s |
| #9 | GPT-5.5 medium | OpenAI | 1 | 2.8 | $3.679 | 0/1 | 37.9s |
| #10 | GPT-5.3-Codex medium | OpenAI | 1 | 2.8 | $0.740 | 0/1 | 14.4s |
| #11 | Qwen3.6 Max Preview medium | Qwen | 1 | 3.0 | $0.960 | 0/1 | 60.6s |
| #13 | Claude Opus 4.7 medium | Anthropic | 1 | 3.0 | $0.679 | 0/1 | 2.25s |
| #15 | GLM 5 medium | Z.ai | 1 | 3.0 | $0.228 | 0/1 | 67.4s |
| #16 | GPT-5 Mini medium | OpenAI | 1 | 3.0 | $0.159 | 0/1 | 9.99s |
| #17 | GPT-5.4 medium | OpenAI | 1 | 3.0 | $1.210 | 0/1 | 14.0s |
| #18 | Seed-2.0-Lite medium | Bytedance Seed | 1 | 3.0 | $0.175 | 0/1 | 48.3s |
| #19 | GPT-5.2 Chat none | OpenAI | 1 | 3.0 | $0.393 | 0/1 | 6.89s |
| #21 | GLM 5 Turbo medium | Z.ai | 1 | 3.0 | $0.323 | 0/1 | 40.2s |
| #22 | GPT-5.2 medium | OpenAI | 1 | 3.0 | $0.548 | 0/1 | 28.2s |
| #23 | DeepSeek V4 Flash high | DeepSeek | 1 | 3.0 | $0.027 | 0/1 | 54.5s |
| #24 | Gemini 2.5 Flash medium | 1 | 3.0 | $0.379 | 0/1 | 2.76s |