AI BENCHY
比较
❤️ Made by XCS
Your ad here

模型名称

Google: Gemini 3 Flash Preview

推理(low)

基准结果生成自 AI BENCHY 测试套件,时间: : 2026年2月24日

指标 Google: Gemini 3 Flash Preview
排名#5
公司Google
Score 8.23
一致性 8.71
每个结果成本 0.6173
总成本 $0.06174
测试正确
尝试通过率 82.0%
不稳定测试 2
输出令牌 936
推理令牌 18,071
响应时间(平均)6746ms
响应时间(总计)87697ms
响应时间(最大)14717ms

类别细分

类别 完全通过的测试 Score 一致性 尝试通过率 不稳定测试 推理得分 响应时间(平均) 成本
反AI技巧 10.00 10.00 100.0% 0 6.23 3496ms $0.00844
数据解析与提取 10.00 10.00 100.0% 0 4.73 9460ms $0.01354
领域专项 4.00 4.41 55.5% 2 1.83 8314ms $0.01993
指令遵循 7.50 9.99 50.0% 0 5.00 7016ms $0.00878
Puzzle Solving 10.00 10.00 100.0% 0 7.50 6440ms $0.01105

已对比模型

将 Google: Gemini 3 Flash Preview 与...对比

#4 · Qwen

Qwen: Qwen3.5 Plus 2026-02-15

推理(medium)

Score: 8.54

一致性: 9.35

尝试通过率: 87.2%

不稳定测试: 1

每个结果成本: 2.1621

测试正确:

总成本: $0.23784

比较

#6 · OpenAI

OpenAI: GPT-5.3-Codex

推理(medium)

Score: 7.77

一致性: 8.75

尝试通过率: 76.9%

不稳定测试: 2

每个结果成本: 4.9342

测试正确:

总成本: $0.44408

比较

#3 · Google

Google: Gemini 3 Pro Preview

推理(medium)

Score: 8.54

一致性: 10.00

尝试通过率: 84.6%

不稳定测试: 0

每个结果成本: 0.7901

测试正确:

总成本: $0.08692

比较

快速对比

将 Google: Gemini 3 Flash Preview 与...对比