数据解析与提取模型排名

看看哪些 AI 模型在数据解析与提取上表现最好，哪些更稳定，以及差距主要出现在哪里。排序方式: 响应时间（平均） ↓.

显示的模型数

数据解析与提取得分平均值

8.9

最佳模型

Qwen3.5-9B 3.6

失败原因

失败原因为答案错误41 失败原因为 API 错误14 失败原因为无答案8 失败原因为额外格式6 失败原因为超时1

216/216

排名	模型	公司	数据解析与提取得分	分数	总成本	测试正确	响应时间（平均）
#28	Gemini 2.5 Flash medium	Google	10.0	8.2	$0.643	2/2	4.06s
总测试数 2 错误测试数 0 总成本 $0.643 响应时间（平均） 4.06s
#137	Grok 4.20 Beta medium	X AI	10.0	6.0	$0.750	2/2	4.01s
总测试数 2 错误测试数 0 总成本 $0.750 响应时间（平均） 4.01s
#151	GLM 5V Turbo none	Z.ai	10.0	5.6	$0.052	2/2	3.81s
总测试数 2 错误测试数 0 总成本 $0.052 响应时间（平均） 3.81s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	6.5	5.6	$0.048	1/2	3.65s
总测试数 2 错误测试数 1 总成本 $0.048 响应时间（平均） 3.65s
#36	Inkling medium	Thinkingmachines	10.0	8.0	$0.391	2/2	3.60s
总测试数 2 错误测试数 0 总成本 $0.391 响应时间（平均） 3.60s
#154	Owl Alpha none	Openrouter	10.0	5.6	$0.000	2/2	3.60s
总测试数 2 错误测试数 0 总成本 $0.000 响应时间（平均） 3.60s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	6.5	5.6	$0.077	1/2	3.59s
总测试数 2 错误测试数 1 总成本 $0.077 响应时间（平均） 3.59s
#23	Grok 4.5 low	X AI	10.0	8.4	$0.935	2/2	3.44s
总测试数 2 错误测试数 0 总成本 $0.935 响应时间（平均） 3.44s
#67	Claude Sonnet 4.6 none	Anthropic	10.0	7.3	$0.661	2/2	3.43s
总测试数 2 错误测试数 0 总成本 $0.661 响应时间（平均） 3.43s
#198	Laguna M.1 none	Poolside	10.0	4.4	$0.009	2/2	3.37s
总测试数 2 错误测试数 0 总成本 $0.009 响应时间（平均） 3.37s
#9	GPT-5.5 low	OpenAI	10.0	9.3	$1.253	2/2	3.28s
总测试数 2 错误测试数 0 总成本 $1.253 响应时间（平均） 3.28s
#189	Trinity Large Preview none	Arcee AI	10.0	4.8	$0.008	2/2	3.26s
总测试数 2 错误测试数 0 总成本 $0.008 响应时间（平均） 3.26s
#27	Muse Spark 1.1 low	Meta	10.0	8.3	$0.647	2/2	3.22s
总测试数 2 错误测试数 0 总成本 $0.647 响应时间（平均） 3.22s
#26	Claude Sonnet 5 medium	Anthropic	10.0	8.3	$0.922	2/2	3.16s
总测试数 2 错误测试数 0 总成本 $0.922 响应时间（平均） 3.16s
#24	GPT-5.2 medium	OpenAI	10.0	8.4	$0.951	2/2	3.15s
总测试数 2 错误测试数 0 总成本 $0.951 响应时间（平均） 3.15s

数据解析与提取排名

筛选模型

按数据解析与提取得分排名的顶级模型

数据解析与提取得分 vs 总成本

按响应时间（平均）排名的顶级模型

数据解析与提取 排名

筛选模型

按 数据解析与提取 得分 排名的顶级模型

数据解析与提取 得分 vs 总成本

按 响应时间（平均） 排名的顶级模型

数据解析与提取排名

按数据解析与提取得分排名的顶级模型

数据解析与提取得分 vs 总成本

按响应时间（平均）排名的顶级模型