比较图表方法论

语言:

❤️ Made by XCS

AI BENCHY 分类失败

数据解析与提取

答案错误

看看哪些 AI 模型在数据解析与提取上最容易遇到答案错误，更快找出薄弱点。

显示的模型数

11

失败总数

14

受影响最多的模型

相关失败原因

答案错误14 API 错误4 无答案2 额外格式1

相关分类

领域专项98 谜题求解55 反AI技巧53 指令遵循26 综合21 数据解析与提取14 通用智能6 工具调用2

排名	模型	公司	答案错误次数	分类得分	测试正确	响应时间（平均）
#34	GPT-5 Nano medium	OpenAI	2	10.0	0/2	21.4s
#43	MiniMax M2.5 medium	Minimax	2	10.0	0/2	7.48s
#55	LFM2-24B-A2B none	Liquid	2	10.0	0/2	714ms
#33	DeepSeek V3.2 none	DeepSeek	1	5.4	1/2	9.42s
#36	Mercury 2 medium	Inception	1	5.5	1/2	1.11s
#39	gpt-oss-120b medium	OpenAI	1	5.5	1/2	1.98s
#46	Kimi K2.5 none	Moonshot AI	1	5.4	1/2	42.1s
#48	Qwen3 Coder Next none	Qwen	1	5.4	1/2	1.32s
#49	GLM 4.7 Flash none	Z.ai	1	5.4	1/2	4.82s
#50	Qwen3 Coder Next medium	Qwen	1	5.4	1/2	81.8s
#51	Mercury 2 none	Inception	1	5.5	1/2	667ms

按答案错误次数排名的顶级模型

答案错误次数 vs 平均分

按响应时间（平均）排名的顶级模型

按预估浪费成本排名的顶级模型