コーディング x 不正解ランキング

AI BENCHY カテゴリ別失敗

コーディングで不正解が起きやすいAIモデルを確認し、弱点を早く見つけられます。並び替え: 正解テスト ↓.

表示モデル数

総失敗数

230

最も影響を受けたモデル

Gemini 3 Flash Preview 1

失敗理由

不正解230 API エラー43 タイムアウト25 回答なし18 指示に従っていない16 余分な書式12

カテゴリ

ドメイン特化368 反AIトリック270 コーディング230 パズル解決173 雑学150 複合58 指示追従56 汎用知能49 データ解析と抽出36 ツール呼び出し3

134/134

順位	モデル	企業	不正解件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#2	Gemini 3 Flash Preview medium	Google	1	8.6	$0.667	2/3	84.4s
合計テスト数 3 誤答テスト数 1 合計コスト $0.667 応答時間（平均） 84.4s
#8	Gemini 3.5 Flash low	Google	1	7.8	$0.349	2/3	6.71s
合計テスト数 3 誤答テスト数 1 合計コスト $0.349 応答時間（平均） 6.71s
#10	Gemini 3.1 Pro Preview medium	Google	1	7.9	$1.054	2/3	40.2s
合計テスト数 3 誤答テスト数 1 合計コスト $1.054 応答時間（平均） 40.2s
#12	GPT-5.5 medium	OpenAI	1	8.8	$3.679	2/3	59.8s
合計テスト数 3 誤答テスト数 1 合計コスト $3.679 応答時間（平均） 59.8s
#14	Qwen3.6 Max Preview medium	Qwen	1	8.8	$0.960	2/3	146.5s
合計テスト数 3 誤答テスト数 1 合計コスト $0.960 応答時間（平均） 146.5s
#16	Claude Opus 4.7 medium	Anthropic	1	7.6	$0.679	2/3	13.0s
合計テスト数 3 誤答テスト数 1 合計コスト $0.679 応答時間（平均） 13.0s
#17	GLM 5.2 medium	Z.ai	1	8.2	$0.179	2/3	41.0s
合計テスト数 3 誤答テスト数 1 合計コスト $0.179 応答時間（平均） 41.0s
#20	GPT-5.4 medium	OpenAI	1	8.8	$1.210	2/3	44.4s
合計テスト数 3 誤答テスト数 1 合計コスト $1.210 応答時間（平均） 44.4s
#21	Seed-2.0-Lite medium	Bytedance Seed	1	8.0	$0.175	2/3	156.7s
合計テスト数 3 誤答テスト数 1 合計コスト $0.175 応答時間（平均） 156.7s
#22	GPT-5.2 Chat none	OpenAI	1	8.8	$0.393	2/3	9.82s
合計テスト数 3 誤答テスト数 1 合計コスト $0.393 応答時間（平均） 9.82s
#23	Step 3.7 Flash medium	Stepfun	1	8.8	$0.376	2/3	27.4s
合計テスト数 3 誤答テスト数 1 合計コスト $0.376 応答時間（平均） 27.4s
#26	Grok 4.5 medium	X AI	1	7.6	$1.696	2/3	155.7s
合計テスト数 3 誤答テスト数 1 合計コスト $1.696 応答時間（平均） 155.7s
#27	DeepSeek V4 Flash high	DeepSeek	1	7.8	$0.027	2/3	50.6s
合計テスト数 3 誤答テスト数 1 合計コスト $0.027 応答時間（平均） 50.6s
#28	Gemini 2.5 Flash medium	Google	1	7.8	$0.379	2/3	41.0s
合計テスト数 3 誤答テスト数 1 合計コスト $0.379 応答時間（平均） 41.0s
#29	GPT-5.6 Terra high	OpenAI	1	7.6	$0.852	2/3	9.14s
合計テスト数 3 誤答テスト数 1 合計コスト $0.852 応答時間（平均） 9.14s

モデルを絞り込む

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

コーディング: 不正解

モデルを絞り込む

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル