コーディング x 不正解ランキング

AI BENCHY カテゴリ別失敗

コーディングで不正解が起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

総失敗数

230

最も影響を受けたモデル

Qwen3.6 Flash 3

失敗理由

不正解230 API エラー43 タイムアウト25 回答なし18 指示に従っていない16 余分な書式12

カテゴリ

ドメイン特化368 反AIトリック270 コーディング230 パズル解決173 雑学150 複合58 指示追従56 汎用知能49 データ解析と抽出36 ツール呼び出し3

134/134

順位	モデル	企業	不正解件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#58	GPT-5.3 Chat none	OpenAI	2	5.6	$0.433	1/3	10.5s
合計テスト数 3 誤答テスト数 2 合計コスト $0.433 応答時間（平均） 10.5s
#59	GPT-5.4 Nano medium	OpenAI	2	6.1	$0.107	1/3	19.1s
合計テスト数 3 誤答テスト数 2 合計コスト $0.107 応答時間（平均） 19.1s
#65	Gemini 3 Flash Preview low	Google	2	5.8	$0.111	1/3	6.00s
合計テスト数 3 誤答テスト数 2 合計コスト $0.111 応答時間（平均） 6.00s
#66	Grok 4.20 medium	X AI	2	6.3	$0.609	1/3	109.9s
合計テスト数 3 誤答テスト数 2 合計コスト $0.609 応答時間（平均） 109.9s
#69	GLM 5V Turbo medium	Z.ai	2	6.0	$0.457	1/3	63.4s
合計テスト数 3 誤答テスト数 2 合計コスト $0.457 応答時間（平均） 63.4s
#73	Qwen3.7 Plus none	Qwen	2	5.5	$0.023	1/3	2.15s
合計テスト数 3 誤答テスト数 2 合計コスト $0.023 応答時間（平均） 2.15s
#74	GLM 5.2 none	Z.ai	2	3.7	$0.042	0/3	7.55s
合計テスト数 3 誤答テスト数 3 合計コスト $0.042 応答時間（平均） 7.55s
#78	Laguna XS 2.1 medium	Poolside	2	5.5	$0.036	1/3	70.3s
合計テスト数 3 誤答テスト数 2 合計コスト $0.036 応答時間（平均） 70.3s
#81	Gemini 3 Flash Preview none	Google	2	5.5	$0.025	1/3	1.80s
合計テスト数 3 誤答テスト数 2 合計コスト $0.025 応答時間（平均） 1.80s
#82	Qwen3.7 Max none	Qwen	2	5.5	$0.054	1/3	1.35s
合計テスト数 3 誤答テスト数 2 合計コスト $0.054 応答時間（平均） 1.35s
#84	Qwen3.5-Flash medium	Qwen	2	3.7	$0.080	0/3	58.9s
合計テスト数 3 誤答テスト数 3 合計コスト $0.080 応答時間（平均） 58.9s
#90	MiMo-V2.5 medium	Xiaomi	2	6.2	$0.061	1/3	97.1s
合計テスト数 3 誤答テスト数 2 合計コスト $0.061 応答時間（平均） 97.1s
#92	gpt-oss-120b medium	OpenAI	2	5.9	$0.013	1/3	38.4s
合計テスト数 3 誤答テスト数 2 合計コスト $0.013 応答時間（平均） 38.4s
#93	GPT-5 Nano medium	OpenAI	2	7.0	$0.081	1/3	41.6s
合計テスト数 3 誤答テスト数 2 合計コスト $0.081 応答時間（平均） 41.6s
#96	Gemini 3.1 Flash Lite Preview low	Google	2	5.5	$0.026	1/3	1.39s
合計テスト数 3 誤答テスト数 2 合計コスト $0.026 応答時間（平均） 1.39s

←

1 2 3 4 9

→

モデルを絞り込む

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

コーディング: 不正解

モデルを絞り込む

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル