| 反AIトリック | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|
| LiquidAI: LFM2-24B-A2B | 1.00 | 9.81 | 0.0% | 0 | 490 | 0 | |
| Qwen: Qwen3.5-Flash | 10.00 | 10.00 | 100.0% | 0 | 363 | 23,645 |
AI BENCHY Compare
LiquidAI: LFM2-24B-A2B vs Qwen: Qwen3.5-Flash
モデル名:
ベンチマークは AI BENCHY テストスイートから次の日時に生成 : 2026-02-27 15:16
概要
| 指標 | LiquidAI: LFM2-24B-A2B none リリース: リリース日不明 | Qwen: Qwen3.5-Flash medium リリース: リリース日不明 |
|---|---|---|
| 順位 | #39 | #24 |
| スコア | 2.43 | 5.79 |
| 一貫性 | 8.91 | 7.60 |
| 結果あたりのコスト | 0.045 | 0.650 |
| 合計コスト | $0.001 | $0.046 |
| 正解テスト | ||
| 誤答テスト数 | 13 | 7 |
| 試行ごとの合格率 | 16.7% | 66.7% |
| 不安定なテスト | 2 | 4 |
| 出力トークン | 1,125 | 1,194 |
| 推論トークン | 0 | 108,368 |
カテゴリ内訳
| データ解析と抽出 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|
| LiquidAI: LFM2-24B-A2B | 1.00 | 10.00 | 0.0% | 0 | 219 | 0 | |
| Qwen: Qwen3.5-Flash | 5.50 | 5.87 | 83.3% | 1 | 235 | 16,237 |
| ドメイン特化 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|
| LiquidAI: LFM2-24B-A2B | 4.00 | 7.21 | 55.6% | 1 | 30 | 0 | |
| Qwen: Qwen3.5-Flash | 1.00 | 4.41 | 33.3% | 2 | 52 | 34,605 |
| 指示追従 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|
| LiquidAI: LFM2-24B-A2B | 3.00 | 10.00 | 0.0% | 0 | 60 | 0 | |
| Qwen: Qwen3.5-Flash | 7.50 | 9.91 | 50.0% | 0 | 98 | 14,139 |
| Puzzle Solving | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|
| LiquidAI: LFM2-24B-A2B | 3.33 | 7.88 | 22.2% | 1 | 326 | 0 | |
| Qwen: Qwen3.5-Flash | 4.00 | 7.21 | 55.6% | 1 | 137 | 18,458 |
| ツール呼び出し | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|
| LiquidAI: LFM2-24B-A2B | 1.00 | 10.00 | 0.0% | 0 | 0 | 0 | |
| Qwen: Qwen3.5-Flash | 10.00 | 10.00 | 100.0% | 0 | 309 | 1,284 |
比較ペアを切り替え
LiquidAI: LFM2-24B-A2B と比較...
- Google: Gemini 3 Flash Preview medium
- Google: Gemini 3.1 Pro Preview medium
- Google: Gemini 3 Pro Preview medium
- Qwen: Qwen3.5 Plus 2026-02-15 medium
- Qwen: Qwen3.5-27B medium
- Google: Gemini 3 Flash Preview low
- OpenAI: GPT-5.3-Codex medium
- Anthropic: Claude Sonnet 4.6 medium
- Z.ai: GLM 5 medium
- Google: Gemini 3 Flash Preview none
- StepFun: Step 3.5 Flash medium 無料で利用可能
- OpenAI: GPT-5.2 medium
- Qwen: Qwen3.5-122B-A10B medium
- Anthropic: Claude Sonnet 4.6 none
- Qwen: Qwen3.5 Plus 2026-02-15 none
- xAI: Grok 4.1 Fast medium
- MoonshotAI: Kimi K2.5 medium
- ByteDance Seed: Seed-2.0-Mini medium
- Z.ai: GLM 5 none
- Anthropic: Claude Opus 4.6 medium
- Xiaomi: MiMo-V2-Flash medium
- Qwen: Qwen3.5-35B-A3B medium
- OpenAI: GPT-5 Nano medium
- Qwen: Qwen3.5-Flash medium
- OpenAI: gpt-oss-120b medium 無料で利用可能
- MiniMax: MiniMax M2.5 medium
- Qwen: Qwen3.5-122B-A10B none
- OpenAI: GPT-4o-mini none
- Qwen: Qwen3.5-27B none
- Qwen: Qwen3.5-35B-A3B none
- Z.ai: GLM 4.7 Flash medium
- MoonshotAI: Kimi K2.5 none
- Qwen: Qwen3 Coder Next none
- Z.ai: GLM 4.7 Flash none
- Qwen: Qwen3.5-Flash none
- Qwen: Qwen3 Coder Next medium
- Xiaomi: MiMo-V2-Flash none
- xAI: Grok 4.1 Fast none
Qwen: Qwen3.5-Flash と比較...
- Google: Gemini 3 Flash Preview medium
- Google: Gemini 3.1 Pro Preview medium
- Google: Gemini 3 Pro Preview medium
- Qwen: Qwen3.5 Plus 2026-02-15 medium
- Qwen: Qwen3.5-27B medium
- Google: Gemini 3 Flash Preview low
- OpenAI: GPT-5.3-Codex medium
- Anthropic: Claude Sonnet 4.6 medium
- Z.ai: GLM 5 medium
- Google: Gemini 3 Flash Preview none
- StepFun: Step 3.5 Flash medium 無料で利用可能
- OpenAI: GPT-5.2 medium
- Qwen: Qwen3.5-122B-A10B medium
- Anthropic: Claude Sonnet 4.6 none
- Qwen: Qwen3.5 Plus 2026-02-15 none
- xAI: Grok 4.1 Fast medium
- MoonshotAI: Kimi K2.5 medium
- ByteDance Seed: Seed-2.0-Mini medium
- Z.ai: GLM 5 none
- Anthropic: Claude Opus 4.6 medium
- Xiaomi: MiMo-V2-Flash medium
- Qwen: Qwen3.5-35B-A3B medium
- OpenAI: GPT-5 Nano medium
- OpenAI: gpt-oss-120b medium 無料で利用可能
- MiniMax: MiniMax M2.5 medium
- Qwen: Qwen3.5-122B-A10B none
- OpenAI: GPT-4o-mini none
- Qwen: Qwen3.5-27B none
- Qwen: Qwen3.5-35B-A3B none
- Z.ai: GLM 4.7 Flash medium
- MoonshotAI: Kimi K2.5 none
- Qwen: Qwen3 Coder Next none
- Z.ai: GLM 4.7 Flash none
- Qwen: Qwen3.5-Flash none
- Qwen: Qwen3 Coder Next medium
- Xiaomi: MiMo-V2-Flash none
- xAI: Grok 4.1 Fast none
- LiquidAI: LFM2-24B-A2B none