AI BENCHY 对比

Google: Gemini 3.1 Flash Lite Preview vs OpenAI: GPT-5.4

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-06-03

指标	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview none 发布日期: 2026-03-03	GPT-5.4 GPT-5.4 medium 发布日期: 2026-03-05

指标	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview none 发布日期: 2026-03-03	GPT-5.4 GPT-5.4 medium 发布日期: 2026-03-05
分数	7.5	7.9
排名	#49	#27
可靠性	10.0	10.0
一致性	9.7	8.5
测试正确
尝试通过率	63.3%	75.0%
不稳定测试	1	4
总运行次数	60	60
每个结果成本	0.142	8.765
总成本	$0.017	$1.140
输入价格	$0.250 / 1M	$2.500 / 1M
输出价格	$1.500 / 1M	$15.000 / 1M
总输入令牌	34,579	31,489
输出令牌	5,541	2,221
推理令牌	0	68,486
响应时间（平均）	1.23s	22.31s
响应时间（最大）	3.39s	100.41s
响应时间（总计）	24.68s	446.17s

按分数排名的模型

分数 vs 总成本

响应时间（平均）

分数 vs 响应时间（平均）

总输出令牌

分数 vs 总输出令牌

类别细分

反AI技巧	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Gemini 3.1 Flash Lite Preview	7.5	8.4	66.7%	1		1.04s	504	1,092	0
GPT-5.4	8.3	10.0	75.0%	0		4.11s	606	240	1,511

编程	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Gemini 3.1 Flash Lite Preview	6.8	10.0	50.0%	0		1.06s	5,125	664	0
GPT-5.4	8.2	6.7	83.3%	1		54.98s	4,686	412	19,995

综合	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		3.20s	13,026	339	0
GPT-5.4	10.0	10.0	100.0%	0		20.57s	11,019	301	3,543

数据解析与提取	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.22s	7,550	399	0
GPT-5.4	10.0	10.0	100.0%	0		5.32s	7,140	234	804

领域专项	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Gemini 3.1 Flash Lite Preview	5.3	10.0	33.3%	0		942ms	641	568	0
GPT-5.4	5.3	7.2	44.4%	1		74.27s	619	61	34,748

通用智能	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Gemini 3.1 Flash Lite Preview	4.0	10.0	0.0%	0		741ms	488	69	0
GPT-5.4	4.7	3.1	33.3%	1		4.92s	477	145	321

指令遵循	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.13s	623	574	0
GPT-5.4	10.0	10.0	100.0%	0		3.11s	660	93	897

谜题求解	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		900ms	570	1,045	0
GPT-5.4	8.2	7.2	88.9%	1		9.14s	642	441	3,815

工具调用	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.39s	5,894	782	0
GPT-5.4	10.0	10.0	100.0%	0		13.28s	5,445	264	1,031

常识问答	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		814ms	158	9	0
GPT-5.4	3.0	10.0	0.0%	0		13.95s	195	30	1,821

快速对比

切换对比组合

GPT-5.4mediumvsQwen3.7 Maxnone Gemini 3.1 Flash Lite PreviewnonevsKimi K2.6medium免费可用 Gemini 3.1 Flash Lite PreviewnonevsQwen3.5 Plus 2026-04-20medium Gemini 3.5 FlashminimalvsGPT-5.4medium Gemini 3.1 Flash Lite PreviewnonevsGLM 5.1medium Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2.5medium Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 Flashmedium Gemini 3.1 Flash Lite PreviewnonevsStep 3.7 Flashlow Gemini 3.1 Flash Lite PreviewnonevsGLM 5V Turbomedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.6 35B A3Bmedium Gemini 3.5 FlashnonevsGPT-5.4medium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.2medium