比較するチャート方法論

言語:

❤️ Made by XCS

AI BENCHY カテゴリ別失敗

指示追従

指示に従っていない

指示追従で指示に従っていないが起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

9

総失敗数

9

最も影響を受けたモデル

Gemini 3.1 Flash Lite Preview 1

関連する失敗理由

不正解26 指示に従っていない9

関連カテゴリ

汎用知能32 パズル解決24 反AIトリック12 指示追従9

順位	モデル	企業	指示に従っていない件数	カテゴリスコア	正解テスト	応答時間（平均）
#8	Gemini 3.1 Flash Lite Preview high	Google	1	9.0	1/2	70.1s
#13	Step 3.5 Flash medium	Stepfun	1	9.0	1/2	4.98s
#30	Grok 4.1 Fast medium	X AI	1	5.5	1/2	5.30s
#32	GPT-5 Mini medium	OpenAI	1	7.5	1/2	15.7s
#34	GPT-5 Nano medium	OpenAI	1	9.0	1/2	11.9s
#43	MiniMax M2.5 medium	Minimax	1	8.0	1/2	4.64s
#45	Trinity Large Preview none	Arcee AI	1	3.5	0/2	1.09s
#47	GPT-4o-mini none	OpenAI	1	4.5	0/2	1.27s
#50	Qwen3 Coder Next medium	Qwen	1	4.5	0/2	7.34s

指示に従っていない件数上位モデル

指示に従っていない件数 vs 平均スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル