比較するチャート方法論

言語:

❤️ Made by XCS

AI BENCHY カテゴリ別失敗

データ解析と抽出

不正解

データ解析と抽出で不正解が起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

11

総失敗数

14

最も影響を受けたモデル

関連する失敗理由

不正解14 API エラー4 回答なし2 余分な書式1

関連カテゴリ

ドメイン特化98 パズル解決55 反AIトリック53 指示追従26 複合21 データ解析と抽出14 汎用知能6 ツール呼び出し2

順位	モデル	企業	不正解件数	カテゴリスコア	正解テスト	応答時間（平均）
#34	GPT-5 Nano medium	OpenAI	2	10.0	0/2	21.4s
#43	MiniMax M2.5 medium	Minimax	2	10.0	0/2	7.48s
#55	LFM2-24B-A2B none	Liquid	2	10.0	0/2	714ms
#33	DeepSeek V3.2 none	DeepSeek	1	5.4	1/2	9.42s
#36	Mercury 2 medium	Inception	1	5.5	1/2	1.11s
#39	gpt-oss-120b medium	OpenAI	1	5.5	1/2	1.98s
#46	Kimi K2.5 none	Moonshot AI	1	5.4	1/2	42.1s
#48	Qwen3 Coder Next none	Qwen	1	5.4	1/2	1.32s
#49	GLM 4.7 Flash none	Z.ai	1	5.4	1/2	4.82s
#50	Qwen3 Coder Next medium	Qwen	1	5.4	1/2	81.8s
#51	Mercury 2 none	Inception	1	5.5	1/2	667ms

不正解件数上位モデル

不正解件数 vs 平均スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル