データ解析と抽出モデルランキング

データ解析と抽出でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 正解テスト ↑.

表示モデル数

平均データ解析と抽出スコア

8.9

最良モデル

LongCat 2.0 3.6

失敗理由

失敗理由不正解で41 失敗理由 API エラーで14 失敗理由回答なしで8 失敗理由余分な書式で6 失敗理由タイムアウトで1

210/210

順位	モデル	企業	データ解析と抽出スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#41	Claude Opus 4.8 low	Anthropic	6.3	7.8	$2.077	1/2	2.27s
合計テスト数 2 誤答テスト数 1 合計コスト $2.077 応答時間（平均） 2.27s
#42	GLM 5 medium	Z.ai	7.1	7.7	$0.307	1/2	8.90s
合計テスト数 2 誤答テスト数 1 合計コスト $0.307 応答時間（平均） 8.90s
#60	LongCat 2.0 medium	Meituan	6.3	7.4	$0.478	1/2	10.6s
合計テスト数 2 誤答テスト数 1 合計コスト $0.478 応答時間（平均） 10.6s
#66	Claude Opus 4.8 none	Anthropic	7.3	7.3	$1.166	1/2	1.77s
合計テスト数 2 誤答テスト数 1 合計コスト $1.166 応答時間（平均） 1.77s
#67	Step 3.7 Flash low	Stepfun	7.3	7.3	$0.454	1/2	2.29s
合計テスト数 2 誤答テスト数 1 合計コスト $0.454 応答時間（平均） 2.29s
#78	Mercury 2 medium	Inception	7.3	7.0	$0.093	1/2	1.11s
合計テスト数 2 誤答テスト数 1 合計コスト $0.093 応答時間（平均） 1.11s
#79	Gemini 3.5 Flash none	Google	6.5	7.0	$1.079	1/2	8.10s
合計テスト数 2 誤答テスト数 1 合計コスト $1.079 応答時間（平均） 8.10s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	7.3	6.9	$0.467	1/2	4.70s
合計テスト数 2 誤答テスト数 1 合計コスト $0.467 応答時間（平均） 4.70s
#84	MiMo-V2.5-Pro medium	Xiaomi	7.3	6.9	$0.187	1/2	18.8s
合計テスト数 2 誤答テスト数 1 合計コスト $0.187 応答時間（平均） 18.8s
#91	LongCat 2.0 low	Meituan	6.3	6.7	$0.391	1/2	10.8s
合計テスト数 2 誤答テスト数 1 合計コスト $0.391 応答時間（平均） 10.8s
#100	Hy3 preview medium	Tencent	6.5	6.5	$0.018	1/2	5.25s
合計テスト数 2 誤答テスト数 1 合計コスト $0.018 応答時間（平均） 5.25s
#108	Ring-2.6-1T medium	Inclusionai	6.5	6.3	$0.103	1/2	37.4s
合計テスト数 2 誤答テスト数 1 合計コスト $0.103 応答時間（平均） 37.4s
#109	Mimo V2 PRO medium	Xiaomi	7.3	6.3	$0.333	1/2	17.2s
合計テスト数 2 誤答テスト数 1 合計コスト $0.333 応答時間（平均） 17.2s
#113	MiMo-V2-Flash medium	Xiaomi	6.5	6.3	$0.043	1/2	0ms
合計テスト数 2 誤答テスト数 1 合計コスト $0.043 応答時間（平均） 0ms
#114	Qwen3.5-Flash medium	Qwen	7.3	6.2	$0.139	1/2	57.0s
合計テスト数 2 誤答テスト数 1 合計コスト $0.139 応答時間（平均） 57.0s

データ解析と抽出ランキング

モデルを絞り込む

データ解析と抽出スコア上位モデル

データ解析と抽出スコア vs 合計コスト

応答時間（平均）上位モデル

データ解析と抽出 ランキング

モデルを絞り込む

データ解析と抽出 スコア 上位モデル

データ解析と抽出 スコア vs 合計コスト

応答時間（平均） 上位モデル

データ解析と抽出ランキング

データ解析と抽出スコア上位モデル

データ解析と抽出スコア vs 合計コスト

応答時間（平均）上位モデル