AI BENCHY カテゴリ別失敗
雑学: 不正解
雑学
不正解
雑学 で 不正解 が起きやすいAIモデルを確認し、弱点を早く見つけられます。
133/133
モデルを絞り込む
現在の検索条件とフィルターに一致するモデルはありません。
| 順位 | モデル | 企業 | 不正解 件数 | カテゴリスコア | 合計コスト | 正解テスト | 応答時間(平均) |
|---|---|---|---|---|---|---|---|
| #3 | Qwen3.7 Max medium | Qwen | 1 | 3.0 | $0.523 | 0/1 | 33.4s |
| #4 | GPT-5.5 low | OpenAI | 1 | 3.0 | $0.907 | 0/1 | 10.1s |
| #9 | GPT-5.5 medium | OpenAI | 1 | 2.8 | $3.679 | 0/1 | 37.9s |
| #10 | GPT-5.3-Codex medium | OpenAI | 1 | 2.8 | $0.740 | 0/1 | 14.4s |
| #11 | Qwen3.6 Max Preview medium | Qwen | 1 | 3.0 | $0.960 | 0/1 | 60.6s |
| #13 | Claude Opus 4.7 medium | Anthropic | 1 | 3.0 | $0.679 | 0/1 | 2.25s |
| #15 | GLM 5 medium | Z.ai | 1 | 3.0 | $0.228 | 0/1 | 67.4s |
| #16 | GPT-5 Mini medium | OpenAI | 1 | 3.0 | $0.159 | 0/1 | 9.99s |
| #17 | GPT-5.4 medium | OpenAI | 1 | 3.0 | $1.210 | 0/1 | 14.0s |
| #18 | Seed-2.0-Lite medium | Bytedance Seed | 1 | 3.0 | $0.175 | 0/1 | 48.3s |
| #19 | GPT-5.2 Chat none | OpenAI | 1 | 3.0 | $0.393 | 0/1 | 6.89s |
| #21 | GLM 5 Turbo medium | Z.ai | 1 | 3.0 | $0.323 | 0/1 | 40.2s |
| #22 | GPT-5.2 medium | OpenAI | 1 | 3.0 | $0.548 | 0/1 | 28.2s |
| #23 | DeepSeek V4 Flash high | DeepSeek | 1 | 3.0 | $0.027 | 0/1 | 54.5s |
| #24 | Gemini 2.5 Flash medium | 1 | 3.0 | $0.379 | 0/1 | 2.76s |