数据解析与提取模型排名

看看哪些 AI 模型在数据解析与提取上表现最好，哪些更稳定，以及差距主要出现在哪里。排序方式: 测试正确 ↓.

显示的模型数

数据解析与提取得分平均值

8.9

最佳模型

Gemini 3.6 Flash 10.0

失败原因

失败原因为答案错误41 失败原因为 API 错误14 失败原因为无答案8 失败原因为额外格式6 失败原因为超时1

216/216

排名	模型	公司	数据解析与提取得分	分数	总成本	测试正确	响应时间（平均）
#166	Laguna XS 2.1 none	Poolside	10.0	5.3	$0.008	2/2	768ms
总测试数 2 错误测试数 0 总成本 $0.008 响应时间（平均） 768ms
#167	Qwen3.6 35B A3B none	Qwen	10.0	5.3	$0.061	2/2	1.46s
总测试数 2 错误测试数 0 总成本 $0.061 响应时间（平均） 1.46s
#168	Ling-2.6-1T none	Inclusionai	10.0	5.3	$0.016	2/2	1.37s
总测试数 2 错误测试数 0 总成本 $0.016 响应时间（平均） 1.37s
#169	Gemini 3.1 Flash Lite Preview high	Google	10.0	5.3	$2.310	2/2	7.16s
总测试数 2 错误测试数 0 总成本 $2.310 响应时间（平均） 7.16s
#170	Inkling none	Thinkingmachines	10.0	5.2	$0.147	2/2	1.14s
总测试数 2 错误测试数 0 总成本 $0.147 响应时间（平均） 1.14s
#171	Mistral Small 4 none	Mistral	10.0	5.1	$0.022	2/2	822ms
总测试数 2 错误测试数 0 总成本 $0.022 响应时间（平均） 822ms
#175	Qwen3.5-9B none	Qwen	10.0	5.1	$0.021	2/2	847ms
总测试数 2 错误测试数 0 总成本 $0.021 响应时间（平均） 847ms
#176	GLM 5 Turbo none	Z.ai	10.0	5.1	$0.047	2/2	2.47s
总测试数 2 错误测试数 0 总成本 $0.047 响应时间（平均） 2.47s
#177	North Mini Code none	Cohere	10.0	5.1	$0.000	2/2	28.0s
总测试数 2 错误测试数 0 总成本 $0.000 响应时间（平均） 28.0s
#180	GPT-4o-mini none	OpenAI	10.0	5.0	$0.010	2/2	1.27s
总测试数 2 错误测试数 0 总成本 $0.010 响应时间（平均） 1.27s
#181	Qwen3.6 Plus Preview medium	Qwen	10.0	4.9	$0.000	2/2	14.9s
总测试数 2 错误测试数 0 总成本 $0.000 响应时间（平均） 14.9s
#183	Nemotron 3 Super none	NVIDIA	10.0	4.9	$0.008	2/2	7.92s
总测试数 2 错误测试数 0 总成本 $0.008 响应时间（平均） 7.92s
#187	Grok 4.20 Multi Agent Beta medium	X AI	10.0	4.8	$5.599	2/2	5.54s
总测试数 2 错误测试数 0 总成本 $5.599 响应时间（平均） 5.54s
#189	Trinity Large Preview none	Arcee AI	10.0	4.8	$0.008	2/2	3.26s
总测试数 2 错误测试数 0 总成本 $0.008 响应时间（平均） 3.26s
#190	Hunter Alpha medium	OpenRouter	10.0	4.7	$0.000	2/2	23.2s
总测试数 2 错误测试数 0 总成本 $0.000 响应时间（平均） 23.2s

←

1 9 10 11 15

→

数据解析与提取排名

筛选模型

按数据解析与提取得分排名的顶级模型

数据解析与提取得分 vs 总成本

按响应时间（平均）排名的顶级模型

数据解析与提取 排名

筛选模型

按 数据解析与提取 得分 排名的顶级模型

数据解析与提取 得分 vs 总成本

按 响应时间（平均） 排名的顶级模型

数据解析与提取排名

按数据解析与提取得分排名的顶级模型

数据解析与提取得分 vs 总成本

按响应时间（平均）排名的顶级模型