数据解析与提取 x API 错误排名

看看哪些 AI 模型在数据解析与提取上最容易遇到 API 错误，更快找出薄弱点。

显示的模型数

失败总数

受影响最多的模型

Gemini 3.5 Flash 1

失败原因

答案错误41 API 错误14 无答案8 额外格式6 超时1

分类

编程45 综合26 工具调用17 反AI技巧14 数据解析与提取14 常识问答13 谜题求解12 通用智能12 领域专项7 指令遵循1

14/14

排名	模型	公司	API 错误次数	分类得分	总成本	测试正确	响应时间（平均）
#79	Gemini 3.5 Flash none	Google	1	6.5	$1.079	1/2	8.10s
总测试数 2 错误测试数 1 总成本 $1.079 响应时间（平均） 8.10s
#100	Hy3 preview medium	Tencent	1	6.5	$0.018	1/2	5.25s
总测试数 2 错误测试数 1 总成本 $0.018 响应时间（平均） 5.25s
#113	MiMo-V2-Flash medium	Xiaomi	1	6.5	$0.043	1/2	0ms
总测试数 2 错误测试数 1 总成本 $0.043 响应时间（平均） 0ms
#114	Qwen3.5-Flash medium	Qwen	1	7.3	$0.139	1/2	57.0s
总测试数 2 错误测试数 1 总成本 $0.139 响应时间（平均） 57.0s
#119	Qwen3.5-35B-A3B medium	Qwen	1	7.3	$0.837	1/2	59.3s
总测试数 2 错误测试数 1 总成本 $0.837 响应时间（平均） 59.3s
#135	Hy3 preview high	Tencent	1	6.5	$0.048	1/2	12.1s
总测试数 2 错误测试数 1 总成本 $0.048 响应时间（平均） 12.1s
#153	Hy3 preview low	Tencent	1	6.5	$0.015	1/2	5.85s
总测试数 2 错误测试数 1 总成本 $0.015 响应时间（平均） 5.85s
#167	Mistral Small 4 medium	Mistral	1	7.3	$0.096	1/2	1.23s
总测试数 2 错误测试数 1 总成本 $0.096 响应时间（平均） 1.23s
#179	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/2	45.9s
总测试数 2 错误测试数 2 总成本 $0.026 响应时间（平均） 45.9s
#199	Hy3 preview none	Tencent	1	6.5	$0.003	1/2	2.85s
总测试数 2 错误测试数 1 总成本 $0.003 响应时间（平均） 2.85s
#200	MiMo-V2-Flash none	Xiaomi	1	2.9	$0.025	0/2	19.7s
总测试数 2 错误测试数 2 总成本 $0.025 响应时间（平均） 19.7s
#202	Grok Build 0.1 none	X AI	1	3.8	$0.547	0/2	9.33s
总测试数 2 错误测试数 2 总成本 $0.547 响应时间（平均） 9.33s
#206	gpt-oss-120b none	OpenAI	1	6.5	$0.010	1/2	7.12s
总测试数 2 错误测试数 1 总成本 $0.010 响应时间（平均） 7.12s
#209	Step 3.5 Flash none	Stepfun	1	1.5	$0.020	0/1	0ms
总测试数 1 错误测试数 1 总成本 $0.020 响应时间（平均） 0ms

筛选模型

按 API 错误次数排名的顶级模型

API 错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型

数据解析与提取：API 错误

筛选模型

按 API 错误 次数 排名的顶级模型

API 错误 次数 对比 分数

按 响应时间（平均） 排名的顶级模型

按 预估浪费成本 排名的顶级模型

按 API 错误次数排名的顶级模型

API 错误次数对比分数

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型