AI BENCHY 对比

Anthropic: Claude Opus 4.8 vs Google: Gemini 3.1 Flash Lite Preview

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-05-28

指标	Claude Opus 4.8 Claude Opus 4.8 none 发布日期: 2026-05-28	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview none 发布日期: 2026-03-03

指标	Claude Opus 4.8 Claude Opus 4.8 none 发布日期: 2026-05-28	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview none 发布日期: 2026-03-03
分数	7.3	7.5
排名	#63	#53
可靠性	10.0	10.0
一致性	9.2	9.7
测试正确
尝试通过率	65.0%	63.3%
不稳定测试	2	1
总运行次数	60	60
每个结果成本	4.324	0.142
总成本	$0.519	$0.017
输入价格	$5.000 / 1M	$0.250 / 1M
输出价格	$25.000 / 1M	$1.500 / 1M
输出令牌	8,098	5,541
推理令牌	0	0
响应时间（平均）	3.51s	1.23s
响应时间（最大）	17.73s	3.39s
响应时间（总计）	70.19s	24.68s

按分数排名的模型

分数 vs 总成本

响应时间（平均）

分数 vs 响应时间（平均）

总输出令牌

分数 vs 总输出令牌

类别细分

反AI技巧	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	1,472	0
Gemini 3.1 Flash Lite Preview	7.5	8.4	66.7%	1		1.04s	1,092	0

编程	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Claude Opus 4.8	6.8	10.0	50.0%	0		3.59s	1,323	0
Gemini 3.1 Flash Lite Preview	6.8	10.0	50.0%	0		1.06s	664	0

综合	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	3,259	0
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		3.20s	339	0

数据解析与提取	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	308	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.22s	399	0

领域专项	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Claude Opus 4.8	5.3	7.2	44.4%	1		1.66s	61	0
Gemini 3.1 Flash Lite Preview	5.3	10.0	33.3%	0		942ms	568	0

通用智能	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	230	0
Gemini 3.1 Flash Lite Preview	4.0	10.0	0.0%	0		741ms	69	0

指令遵循	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	95	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.13s	574	0

谜题求解	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	783	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		900ms	1,045	0

工具调用	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	355	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.39s	782	0

常识问答	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输出令牌	推理令牌
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	212	0
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		814ms	9	0

快速对比

切换对比组合

Claude Opus 4.8nonevsQwen3.5-35B-A3Bmedium Claude Opus 4.8nonevsRing-2.6-1Tmedium Gemini 3.1 Flash Lite PreviewnonevsGLM 5.1medium Claude Opus 4.8nonevsGPT-5.4 Minimedium Claude Opus 4.8nonevsGPT-5.2medium Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2.5medium Gemini 3.1 Flash Lite PreviewnonevsKimi K2.6medium免费可用 Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 Flashmedium Claude Opus 4.8nonevsGLM 5V Turbomedium Claude Opus 4.8nonevsGPT-5.4 Nanomedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewnonevsGLM 5V Turbomedium