数据解析与提取模型排名

看看哪些 AI 模型在数据解析与提取上表现最好，哪些更稳定，以及差距主要出现在哪里。排序方式: 测试正确 ↑.

显示的模型数

数据解析与提取得分平均值

8.9

最佳模型

LongCat 2.0 3.6

失败原因

失败原因为答案错误41 失败原因为 API 错误14 失败原因为无答案8 失败原因为额外格式6 失败原因为超时1

210/210

排名	模型	公司	数据解析与提取得分	分数	总成本	测试正确	响应时间（平均）
#41	Claude Opus 4.8 low	Anthropic	6.3	7.8	$2.077	1/2	2.27s
总测试数 2 错误测试数 1 总成本 $2.077 响应时间（平均） 2.27s
#42	GLM 5 medium	Z.ai	7.1	7.7	$0.307	1/2	8.90s
总测试数 2 错误测试数 1 总成本 $0.307 响应时间（平均） 8.90s
#60	LongCat 2.0 medium	Meituan	6.3	7.4	$0.478	1/2	10.6s
总测试数 2 错误测试数 1 总成本 $0.478 响应时间（平均） 10.6s
#66	Claude Opus 4.8 none	Anthropic	7.3	7.3	$1.166	1/2	1.77s
总测试数 2 错误测试数 1 总成本 $1.166 响应时间（平均） 1.77s
#67	Step 3.7 Flash low	Stepfun	7.3	7.3	$0.454	1/2	2.29s
总测试数 2 错误测试数 1 总成本 $0.454 响应时间（平均） 2.29s
#78	Mercury 2 medium	Inception	7.3	7.0	$0.093	1/2	1.11s
总测试数 2 错误测试数 1 总成本 $0.093 响应时间（平均） 1.11s
#79	Gemini 3.5 Flash none	Google	6.5	7.0	$1.079	1/2	8.10s
总测试数 2 错误测试数 1 总成本 $1.079 响应时间（平均） 8.10s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	7.3	6.9	$0.467	1/2	4.70s
总测试数 2 错误测试数 1 总成本 $0.467 响应时间（平均） 4.70s
#84	MiMo-V2.5-Pro medium	Xiaomi	7.3	6.9	$0.187	1/2	18.8s
总测试数 2 错误测试数 1 总成本 $0.187 响应时间（平均） 18.8s
#91	LongCat 2.0 low	Meituan	6.3	6.7	$0.391	1/2	10.8s
总测试数 2 错误测试数 1 总成本 $0.391 响应时间（平均） 10.8s
#100	Hy3 preview medium	Tencent	6.5	6.5	$0.018	1/2	5.25s
总测试数 2 错误测试数 1 总成本 $0.018 响应时间（平均） 5.25s
#108	Ring-2.6-1T medium	Inclusionai	6.5	6.3	$0.103	1/2	37.4s
总测试数 2 错误测试数 1 总成本 $0.103 响应时间（平均） 37.4s
#109	Mimo V2 PRO medium	Xiaomi	7.3	6.3	$0.333	1/2	17.2s
总测试数 2 错误测试数 1 总成本 $0.333 响应时间（平均） 17.2s
#113	MiMo-V2-Flash medium	Xiaomi	6.5	6.3	$0.043	1/2	0ms
总测试数 2 错误测试数 1 总成本 $0.043 响应时间（平均） 0ms
#114	Qwen3.5-Flash medium	Qwen	7.3	6.2	$0.139	1/2	57.0s
总测试数 2 错误测试数 1 总成本 $0.139 响应时间（平均） 57.0s

数据解析与提取排名

筛选模型

按数据解析与提取得分排名的顶级模型

数据解析与提取得分 vs 总成本

按响应时间（平均）排名的顶级模型

数据解析与提取 排名

筛选模型

按 数据解析与提取 得分 排名的顶级模型

数据解析与提取 得分 vs 总成本

按 响应时间（平均） 排名的顶级模型

数据解析与提取排名

按数据解析与提取得分排名的顶级模型

数据解析与提取得分 vs 总成本

按响应时间（平均）排名的顶级模型