指示に従っていない失敗ランキング | AI BENCHY

AI BENCHY 失敗分析

どのAIモデルで指示に従っていないが起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。並び替え: 失敗数 ↑.

表示モデル数

15

総失敗数

215

最も影響を受けたモデル

Gemini 3.5 Flash 1

カテゴリ

パズル解決カテゴリで78 汎用知能カテゴリで74 反AIトリックカテゴリで30 コーディングカテゴリで14 指示追従カテゴリで11 ツール呼び出しカテゴリで6 ドメイン特化カテゴリで1 複合カテゴリで1

順位	モデル	企業	指示に従っていない件数	スコア	正解テスト	応答時間（平均）
#49	Qwen3.5-Flash medium	Qwen	1	7.4	12/21	63.3s
#50	Gemini 3.1 Flash Lite Preview low	Google	1	7.4	13/21	2.77s
#51	Mimo V2 PRO medium	Xiaomi	1	7.4	12/21	22.2s
#56	MiMo-V2.5 medium	Xiaomi	1	7.3	12/21	27.1s
#59	GLM 5V Turbo medium	Z.ai	1	7.2	11/21	23.1s
#64	MiMo-V2-Flash medium	Xiaomi	1	7.2	12/21	20.1s
#68	Claude Opus 4.8 none	Anthropic	1	7.0	12/21	3.47s
#69	Claude Opus 4.6 medium	Anthropic	1	7.0	12/21	25.9s
#72	DeepSeek V3.2 medium	DeepSeek	1	7.0	11/21	68.7s
#73	Seed-2.0-Mini medium	Bytedance Seed	1	6.9	11/21	80.2s
#77	Claude Sonnet 4.6 none	Anthropic	1	6.8	11/21	5.04s
#78	Qwen3.6 27B medium	Qwen	1	6.8	10/21	59.7s
#83	Step 3.5 Flash none	Stepfun	1	6.6	6/12	39.0s
#85	Gemma 4 31B none	Google	1	6.5	10/21	4.05s
#88	Qwen3.7 Plus none	Qwen	1	6.4	10/21	2.85s

←

1 2 3 8

→

指示に従っていない件数上位モデル

指示に従っていない件数対スコア

応答時間（平均）上位モデル