导航
AI BENCHY
比较 图表 方法论
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY 对比

Trinity Large Preview vs Google: Gemini 3 Flash Preview

比较:

基准结果生成自 AI BENCHY 测试套件,时间:: 2026-03-06

指标 Trinity Large Preview none 发布日期: 2026-01-27 免费可用 Google: Gemini 3 Flash Preview medium 发布日期: 2025-12-17
排名 #45 #1
平均分 4.2 10.0
一致性 9.6 10.0
每个结果成本 0.000 1.025
总成本 $0.000 $0.164
测试正确
尝试通过率 33.3% 100.0%
不稳定测试 1 0
总运行次数 48 (16 x 3) 48 (16 x 3)
输出令牌 1,837 1,634
推理令牌 0 47,907
响应时间(平均) 3.15s 12.36s
响应时间(最大) 8.91s 50.16s
响应时间(总计) 50.46s 111.21s

按分数排名的模型

分数 vs 总成本

响应时间(平均)

平均分 vs 响应时间(平均)

类别细分

反AI技巧 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
Trinity Large Preview 10.0 10.0 0.0% 0 3.59s 587 0
Google: Gemini 3 Flash Preview 10.0 10.0 100.0% 0 5.61s 299 3,127
综合 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
Trinity Large Preview 10.0 10.0 0.0% 0 8.91s 294 0
Google: Gemini 3 Flash Preview 10.0 10.0 100.0% 0 50.16s 351 12,645
数据解析与提取 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
Trinity Large Preview 9.9 10.0 100.0% 0 3.26s 186 0
Google: Gemini 3 Flash Preview 9.9 10.0 100.0% 0 4.72s 279 5,333
领域专项 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
Trinity Large Preview 4.0 10.0 33.3% 0 877ms 25 0
Google: Gemini 3 Flash Preview 10.0 10.0 100.0% 0 21.12s 12 14,908
通用智能 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
Trinity Large Preview 3.0 9.9 0.0% 0 2.86s 124 0
Google: Gemini 3 Flash Preview 10.0 10.0 100.0% 0 4.09s 111 1,285
指令遵循 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
Trinity Large Preview 3.5 6.7 16.7% 1 1.09s 63 0
Google: Gemini 3 Flash Preview 10.0 10.0 100.0% 0 6.10s 72 4,558
Puzzle Solving 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
Trinity Large Preview 4.0 10.0 33.3% 0 3.30s 291 0
Google: Gemini 3 Flash Preview 10.0 10.0 100.0% 0 4.43s 276 4,921
工具调用 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
Trinity Large Preview 10.0 10.0 100.0% 0 6.67s 267 0
Google: Gemini 3 Flash Preview 10.0 10.0 100.0% 0 10.55s 234 1,130

快速对比

切换对比组合