AI BENCHY 对比

Anthropic: Claude Sonnet 4.6 vs Google: Gemini 3.1 Flash Lite

摘要

Claude Sonnet 4.6 vs Gemini 3.1 Flash Lite benchmark 对比：Claude Sonnet 4.6 平均分领先，为 7.3 vs 6.1。 Gemini 3.1 Flash Lite benchmark 成本更低，为 $0.013 vs $0.316。 Gemini 3.1 Flash Lite 更快，为 1.33s vs 5.04s，通过率为 55.6% vs 54.0%。

推荐模型: Gemini 3.1 Flash Lite - 它提供了最佳整体取舍：得分有竞争力（6.1），成本低于Claude Sonnet 4.6，响应时间也较均衡。

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-06-18

指标	Claude Sonnet 4.6 Claude Sonnet 4.6 none 发布日期: 2026-02-17	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite minimal 发布日期: 2026-05-08

指标	Claude Sonnet 4.6 Claude Sonnet 4.6 none 发布日期: 2026-02-17	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite minimal 发布日期: 2026-05-08
分数	7.3	6.1
排名	#55	#94
可靠性	10.0	10.0
一致性	9.7	8.8
测试正确
尝试通过率	55.6%	54.0%
不稳定测试	1	3
总运行次数	63	63
每个结果成本	2.870	0.130
总成本	$0.316	$0.013
输入价格	$3.000 / 1M	$0.250 / 1M
输出价格	$15.000 / 1M	$1.500 / 1M
总输入令牌	57,886	36,973
输出令牌	9,465	2,487
推理令牌	0	0
响应时间（平均）	5.04s	1.33s
响应时间（最大）	23.84s	4.49s
响应时间（总计）	70.60s	27.91s

生成展示

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#55 Claude Sonnet 4.6

none

成本: $0.038
时间: 27.3s
令牌: 2,598 tok

#94 Gemini 3.1 Flash Lite

minimal

成本: $0.001
时间: 3.7s
令牌: 635 tok

按分数排名的模型

分数 vs 总成本

响应时间（平均）

分数 vs 响应时间（平均）

总输出令牌

分数 vs 总输出令牌

类别细分

反AI技巧	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Claude Sonnet 4.6	4.8	10.0	25.0%	0		2.94s	636	1,214	0
Gemini 3.1 Flash Lite	8.3	10.0	75.0%	0		1.10s	500	639	0

编程	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Claude Sonnet 4.6	5.5	10.0	33.3%	0		5.19s	8,522	2,127	0
Gemini 3.1 Flash Lite	5.5	10.0	33.3%	0		831ms	8,126	666	0

综合	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Claude Sonnet 4.6	9.5	10.0	100.0%	0		23.84s	26,024	3,766	0
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		2.53s	12,870	357	0

数据解析与提取	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Claude Sonnet 4.6	10.0	10.0	100.0%	0		3.43s	8,574	252	0
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		1.04s	7,552	279	0

领域专项	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Claude Sonnet 4.6	7.7	10.0	66.7%	0		3.54s	759	413	0
Gemini 3.1 Flash Lite	2.9	7.2	11.1%	1		1.02s	641	15	0

通用智能	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Claude Sonnet 4.6	6.1	3.1	66.7%	1		2.56s	513	192	0
Gemini 3.1 Flash Lite	4.0	10.0	0.0%	0		791ms	490	63	0

指令遵循	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Claude Sonnet 4.6	6.5	10.0	50.0%	0		1.96s	690	90	0
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		932ms	615	72	0

谜题求解	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Claude Sonnet 4.6	7.7	10.0	66.7%	0		2.53s	663	533	0
Gemini 3.1 Flash Lite	6.0	4.6	66.7%	2		2.15s	564	153	0

工具调用	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.11s	11,301	447	0
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		3.51s	5,457	234	0

常识问答	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Claude Sonnet 4.6	3.0	10.0	0.0%	0		4.67s	204	431	0
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		724ms	158	9	0

快速对比

切换对比组合

Gemini 3.1 Flash LiteminimalvsQwen3.5-Flashnone Claude Sonnet 4.6nonevsGrok 4.20medium Seed-2.0-LitenonevsGemini 3.1 Flash Liteminimal Claude Sonnet 4.6nonevsGemini 3 Flash Previewlow Gemini 3.1 Flash LiteminimalvsNemotron 3 Ultra 550b A55bnone免费可用 Claude Sonnet 4.6nonevsMiMo-V2.5-Promedium Claude Sonnet 4.6nonevsSeed-2.0-Minimedium Claude Sonnet 4.6nonevsGemma 4 26B A4Bmedium免费可用 Gemini 3.1 Flash LiteminimalvsGPT-5.5none Gemini 3.1 Flash LiteminimalvsQwen3.6 Max Previewnone Claude Sonnet 4.6nonevsDeepSeek V3.2medium Claude Sonnet 4.6nonevsQwen3.6 Flashmedium