比较图表方法论

语言:

❤️ Made by XCS

AI BENCHY 对比

Anthropic: Claude Opus 4.6 vs Trinity Large Preview

比较:

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-03-06

指标	Anthropic: Claude Opus 4.6 medium 发布日期: 2026-02-05	Trinity Large Preview none 发布日期: 2026-01-27 免费可用
排名	#26	#45
平均分	6.6	4.2
一致性	9.0	9.6
每个结果成本	13.118	0.000
总成本	$1.312	$0.000
测试正确
尝试通过率	66.7%	33.3%
不稳定测试	2	1
总运行次数	48	48
输出令牌	26,254	1,837
推理令牌	17,363	0
响应时间（平均）	22.86s	3.15s
响应时间（最大）	83.40s	8.91s
响应时间（总计）	205.71s	50.46s

按分数排名的模型

分数 vs 总成本

响应时间（平均）

平均分 vs 响应时间（平均）

类别细分

反AI技巧	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Anthropic: Claude Opus 4.6	4.0	4.4	55.6%	2		11.88s	897	1,000
Trinity Large Preview	10.0	10.0	0.0%	0		3.59s	587	0

综合	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
Trinity Large Preview	10.0	10.0	0.0%	0		8.91s	294	0

数据解析与提取	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Anthropic: Claude Opus 4.6	9.9	10.0	100.0%	0		7.37s	691	757
Trinity Large Preview	9.9	10.0	100.0%	0		3.26s	186	0

领域专项	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Anthropic: Claude Opus 4.6	10.0	10.0	0.0%	0		83.40s	14,642	8,687
Trinity Large Preview	4.0	10.0	33.3%	0		877ms	25	0

通用智能	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
Trinity Large Preview	3.0	9.9	0.0%	0		2.86s	124	0

指令遵循	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
Trinity Large Preview	3.5	6.7	16.7%	1		1.09s	63	0

Puzzle Solving	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Anthropic: Claude Opus 4.6	7.0	10.0	66.7%	0		4.60s	531	637
Trinity Large Preview	4.0	10.0	33.3%	0		3.30s	291	0

工具调用	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Anthropic: Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
Trinity Large Preview	10.0	10.0	100.0%	0		6.67s	267	0

快速对比

切换对比组合

Claude Opus 4.6mediumvsQwen3.5 Plus 2026-02-15none Trinity Large Previewnone免费可用vsMiniMax M2.5medium Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Opus 4.6mediumvsGLM 5none Claude Opus 4.6mediumvsGemini 3 Flash Previewnone Trinity Large Previewnone免费可用vsQwen3 Coder Nextmedium Claude Opus 4.6mediumvsGPT-5.3 Chatnone Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Opus 4.6mediumvsGPT-5.2 Chatnone Trinity Large Previewnone免费可用vsgpt-oss-120bmedium免费可用 Claude Opus 4.6mediumvsDeepSeek V3.2none Trinity Large Previewnone免费可用vsMercury 2medium