合計テスト数: 4
誤答テスト数: 0
Score: 10.00
出力トークン: 220
推論トークン: 6,003
| カテゴリ | テスト | 誤り | Score | 出力トークン | 推論トークン |
|---|---|---|---|---|---|
| Anti-AI Tricks | 2 | 0 | 10.00 | 201 | 585 |
| Domain specific | 1 | 0 | 10.00 | 0 | 4,865 |
| Puzzle Solving | 1 | 0 | 10.00 | 19 | 553 |
Aibenchy
2026-02-16T02:24:03.805Z
| 順位 | モデル名 | 企業 ⓘ | Score ⓘ | 結果あたりのコスト ⓘ | 正解テスト ⓘ | ||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| #1 | Z.ai: GLM 5 推論(medium) リリース: リリース日不明 · 合計コスト: $0.0159816 | Z.ai | 10.00 | 0.3995 | 4/4 | ||||||||||||||||||||||||
| 合計テスト数: 4 誤答テスト数: 0 Score: 10.00 出力トークン: 220 推論トークン: 6,003
| |||||||||||||||||||||||||||||
| #2 | StepFun: Step 3.5 Flash 推論なし 無料で利用可能 リリース: リリース日不明 · 合計コスト: $0.0000 | StepFun | 8.00 | 0.0000 | 3/4 | ||||||||||||||||||||||||
| 合計テスト数: 4 誤答テスト数: 1 Score: 8.00 出力トークン: 225 推論トークン: 4,197
| |||||||||||||||||||||||||||||
| #3 | Z.ai: GLM 5 推論なし リリース: リリース日不明 · 合計コスト: $0.0123402 | Z.ai | 7.75 | 0.4113 | 3/4 | ||||||||||||||||||||||||
| 合計テスト数: 4 誤答テスト数: 1 Score: 7.75 出力トークン: 282 推論トークン: 4,697
| |||||||||||||||||||||||||||||
| #4 | MiniMax: MiniMax M2.5 推論なし リリース: リリース日不明 · 合計コスト: $0.0142142 | MiniMax | 7.75 | 0.4738 | 3/4 | ||||||||||||||||||||||||
| 合計テスト数: 4 誤答テスト数: 1 Score: 7.75 出力トークン: 101 推論トークン: 15,007
| |||||||||||||||||||||||||||||
| #5 | Z.ai: GLM 4.7 Flash 推論なし リリース: リリース日不明 · 合計コスト: $0.00087212 | Z.ai | 5.50 | 0.0436 | 2/4 | ||||||||||||||||||||||||
| 合計テスト数: 4 誤答テスト数: 2 Score: 5.50 出力トークン: 218 推論トークン: 1,932
| |||||||||||||||||||||||||||||
| #6 | Qwen: Qwen3 Coder Next 推論(medium) リリース: リリース日不明 · 合計コスト: $0.00003684 | Qwen | 3.25 | 0.0037 | 1/4 | ||||||||||||||||||||||||
| 合計テスト数: 4 誤答テスト数: 3 Score: 3.25 出力トークン: 64 推論トークン: 0
| |||||||||||||||||||||||||||||
| #7 | Qwen: Qwen3 Coder Next 推論なし リリース: リリース日不明 · 合計コスト: $0.00003894 | Qwen | 3.25 | 0.0039 | 1/4 | ||||||||||||||||||||||||
| 合計テスト数: 4 誤答テスト数: 3 Score: 3.25 出力トークン: 71 推論トークン: 0
| |||||||||||||||||||||||||||||
| #8 | Z.ai: GLM 4.7 Flash 推論(medium) リリース: リリース日不明 · 合計コスト: $0.00733692 | Z.ai | 3.25 | 0.7337 | 1/4 | ||||||||||||||||||||||||
| 合計テスト数: 4 誤答テスト数: 3 Score: 3.25 出力トークン: 1,159 推論トークン: 17,192
| |||||||||||||||||||||||||||||
| #9 | MiniMax: MiniMax M2.5 推論(medium) リリース: リリース日不明 · 合計コスト: $0.0225838 | MiniMax | 3.25 | 2.2584 | 1/4 | ||||||||||||||||||||||||
| 合計テスト数: 4 誤答テスト数: 3 Score: 3.25 出力トークン: 46 推論トークン: 22,487
| |||||||||||||||||||||||||||||
| #10 | OpenAI: GPT-4o-mini 推論なし リリース: リリース日不明 · 合計コスト: $0.0000591 | OpenAI | 1.00 | - | 0/4 | ||||||||||||||||||||||||
| 合計テスト数: 4 誤答テスト数: 4 Score: 1.00 出力トークン: 38 推論トークン: 0
| |||||||||||||||||||||||||||||
最初のモデルを選択し、次に2つ目のモデルをクリックして並列比較ページを開きます。