データ解析と抽出モデルランキング

データ解析と抽出でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 指標 ↑.

表示モデル数

平均データ解析と抽出スコア

8.9

最良モデル

Step 3.5 Flash 1.5

失敗理由

失敗理由不正解で41 失敗理由 API エラーで14 失敗理由回答なしで8 失敗理由余分な書式で6 失敗理由タイムアウトで1

216/216

順位	モデル	企業	データ解析と抽出スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#71	Step 3.7 Flash low	Stepfun	7.3	7.3	$0.454	1/2	2.29s
合計テスト数 2 誤答テスト数 1 合計コスト $0.454 応答時間（平均） 2.29s
#88	MiMo-V2.5-Pro medium	Xiaomi	7.3	6.9	$0.187	1/2	18.8s
合計テスト数 2 誤答テスト数 1 合計コスト $0.187 応答時間（平均） 18.8s
#115	Mimo V2 PRO medium	Xiaomi	7.3	6.3	$0.333	1/2	17.2s
合計テスト数 2 誤答テスト数 1 合計コスト $0.333 応答時間（平均） 17.2s
#158	Qwen3.6 27B none	Qwen	7.3	5.5	$0.087	1/2	2.06s
合計テスト数 2 誤答テスト数 1 合計コスト $0.087 応答時間（平均） 2.06s
#161	Kimi K2.5 none	Moonshot AI	7.3	5.5	$0.127	1/2	42.1s
合計テスト数 2 誤答テスト数 1 合計コスト $0.127 応答時間（平均） 42.1s
#182	GLM 4.7 Flash none	Z.ai	7.3	4.9	$0.016	1/2	4.82s
合計テスト数 2 誤答テスト数 1 合計コスト $0.016 応答時間（平均） 4.82s
#82	Mercury 2 medium	Inception	7.3	7.0	$0.093	1/2	1.11s
合計テスト数 2 誤答テスト数 1 合計コスト $0.093 応答時間（平均） 1.11s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	7.3	6.9	$0.467	1/2	4.70s
合計テスト数 2 誤答テスト数 1 合計コスト $0.467 応答時間（平均） 4.70s
#120	Qwen3.5-Flash medium	Qwen	7.3	6.2	$0.139	1/2	57.0s
合計テスト数 2 誤答テスト数 1 合計コスト $0.139 応答時間（平均） 57.0s
#125	Qwen3.5-35B-A3B medium	Qwen	7.3	6.2	$0.837	1/2	59.3s
合計テスト数 2 誤答テスト数 1 合計コスト $0.837 応答時間（平均） 59.3s
#173	Mistral Small 4 medium	Mistral	7.3	5.1	$0.096	1/2	1.23s
合計テスト数 2 誤答テスト数 1 合計コスト $0.096 応答時間（平均） 1.23s
#195	Mercury 2 none	Inception	7.3	4.6	$0.030	1/2	667ms
合計テスト数 2 誤答テスト数 1 合計コスト $0.030 応答時間（平均） 667ms
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7.3	3.4	$0.000	1/2	2.72s
合計テスト数 2 誤答テスト数 1 合計コスト $0.000 応答時間（平均） 2.72s
#1	Gemini 3.6 Flash medium	Google	10.0	9.9	$0.831	2/2	4.26s
合計テスト数 2 誤答テスト数 0 合計コスト $0.831 応答時間（平均） 4.26s
#2	Gemini 3.6 Flash high	Google	10.0	9.7	$1.785	2/2	5.20s
合計テスト数 2 誤答テスト数 0 合計コスト $1.785 応答時間（平均） 5.20s

データ解析と抽出ランキング

モデルを絞り込む

データ解析と抽出スコア上位モデル

データ解析と抽出スコア vs 合計コスト

応答時間（平均）上位モデル

データ解析と抽出 ランキング

モデルを絞り込む

データ解析と抽出 スコア 上位モデル

データ解析と抽出 スコア vs 合計コスト

応答時間（平均） 上位モデル

データ解析と抽出ランキング

データ解析と抽出スコア上位モデル

データ解析と抽出スコア vs 合計コスト

応答時間（平均）上位モデル