AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY 失敗分析

不正解 の失敗

どのAIモデルで 不正解 が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。 並び替え: 応答時間(平均) ↑.

表示モデル数

15

総失敗数

1204

最も影響を受けたモデル

Mistral Small 4 15
順位 モデル 企業 不正解 件数 スコア 正解テスト 応答時間(平均)
#87 Gemini 3.1 Flash Lite minimal Google 8 6.4 10/21 1.33s
#125 GPT-5.4 none OpenAI 13 5.5 7/21 1.42s
#148 GPT-5.4 Nano none OpenAI 15 4.7 4/21 1.48s
#32 Gemini 3.5 Flash minimal Google 5 7.7 14/21 1.57s
#128 Qwen3.6 Flash none Qwen 12 5.4 7/21 1.60s
#157 Grok 4.1 Fast none X AI 13 4.4 3/19 1.62s
#48 Gemini 3 Flash Preview none Google 8 7.4 13/21 1.65s
#115 Qwen3.5-27B none Qwen 12 5.7 7/21 1.68s
#147 GPT-4o-mini none OpenAI 15 4.8 5/21 1.77s
#123 MiMo-V2.5-Pro none Xiaomi 11 5.5 6/21 1.78s
#61 Gemini 3.1 Flash Lite low Google 9 7.2 12/21 1.89s
#91 GPT-5.5 none OpenAI 11 6.4 10/21 1.89s
#154 Qwen3.5-9B none Qwen 14 4.6 4/21 1.89s
#143 MiMo-V2.5 none Xiaomi 14 4.9 5/21 2.20s
#81 Mercury 2 medium Inception 8 6.6 10/21 2.24s

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間(平均) 上位モデル