ドメイン特化 x API エラーランキング | AI BENCHY

ドメイン特化で API エラーが起きやすいAIモデルを確認し、弱点を早く見つけられます。並び替え: 正解テスト ↓.

表示モデル数

7

総失敗数

7

最も影響を受けたモデル

Mistral Small 4 1

失敗理由

不正解412 タイムアウト43 余分な書式17 回答なし8 API エラー7 指示に従っていない1

カテゴリ

コーディング45 複合26 ツール呼び出し17 データ解析と抽出14 反AIトリック14 雑学13 パズル解決12 汎用知能12 ドメイン特化7 指示追従1

7/7

順位	モデル	企業	API エラー件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#167	Mistral Small 4 medium	Mistral	1	5.3	$0.096	1/3	6.11s
合計テスト数 3 誤答テスト数 2 合計コスト $0.096 応答時間（平均） 6.11s
#210	LFM2-24B-A2B none	Liquid	1	5.9	$0.001	1/3	287ms
合計テスト数 3 誤答テスト数 2 合計コスト $0.001 応答時間（平均） 287ms
#27	Muse Spark 1.1 high	Meta	1	3.5	$1.694	0/3	67.4s
合計テスト数 3 誤答テスト数 3 合計コスト $1.694 応答時間（平均） 67.4s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	2.9	$0.041	0/3	4.99s
合計テスト数 3 誤答テスト数 3 合計コスト $0.041 応答時間（平均） 4.99s
#173	DeepSeek V3.2 none	DeepSeek	1	2.9	$0.054	0/3	4.17s
合計テスト数 3 誤答テスト数 3 合計コスト $0.054 応答時間（平均） 4.17s
#175	Qwen3.6 Plus Preview medium	Qwen	1	3.0	$0.000	0/3	22.1s
合計テスト数 3 誤答テスト数 3 合計コスト $0.000 応答時間（平均） 22.1s
#199	Hy3 preview none	Tencent	1	3.6	$0.003	0/3	17.6s
合計テスト数 3 誤答テスト数 3 合計コスト $0.003 応答時間（平均） 17.6s

API エラー件数上位モデル

API エラー件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル