AI BENCHY
排行榜
比较
图表
展示
语言:
🇸🇦 Arabic
🇧🇩 Bangla
🇩🇪 German
🇺🇸 English
🇪🇸 Spanish
🇫🇷 French
🇮🇳 Hindi
🇮🇩 Indonesian
🇯🇵 Japanese
🇮🇳 Marathi
🇳🇱 Dutch
🇵🇹 Portuguese
🇷🇴 Romanian
🇷🇺 Russian
🇰🇪 Swahili
🇵🇰 Urdu
🇨🇳 Chinese
主题
❤️ Made by XCS
导航
排行榜
比较
图表
展示
语言
🇸🇦 Arabic
🇧🇩 Bangla
🇩🇪 German
🇺🇸 English
🇪🇸 Spanish
🇫🇷 French
🇮🇳 Hindi
🇮🇩 Indonesian
🇯🇵 Japanese
🇮🇳 Marathi
🇳🇱 Dutch
🇵🇹 Portuguese
🇷🇴 Romanian
🇷🇺 Russian
🇰🇪 Swahili
🇵🇰 Urdu
🇨🇳 Chinese
主题
❤️ Made by XCS
Advertise here
AD
Track all your projects in one dashboard.
Self-hosted web analytics!
Get 📊
stats
, 🔥
heatmaps
and 👀
recordings
in one self-hosted dashboard.
See where visitors come from and why they don't convert. Get 📊
stats
, 🔥
heatmaps
and
session recordings
in your own, self-hosted dashboard!
uxwizz.com
排行榜
→
综合
→
额外格式
AI BENCHY 分类失败
综合:额外格式
综合
反AI技巧
通用智能
指令遵循
编程
数据解析与提取
谜题求解
领域专项
工具调用
常识问答
综合
综合
:
答案错误
无效工具调用
API 错误
无答案
超时
未遵循指令
额外格式
额外格式
额外格式
看看哪些 AI 模型在 综合 上最容易遇到 额外格式,更快找出薄弱点。
显示的模型数
1
失败总数
1
受影响最多的模型
North Mini Code
1
失败原因
答案错误
53
无效工具调用
20
API 错误
13
无答案
2
超时
2
未遵循指令
1
额外格式
1
分类
反AI技巧
18
领域专项
13
编程
11
数据解析与提取
4
谜题求解
4
指令遵循
2
综合
1
搜索
筛选
0
1/1
筛选模型
重置筛选
总成本
×
$0.000-$0.100
$0.000
$0.100
分数范围
×
1-10
1
10
响应时间(平均) (ms)
×
<
测试正确
×
0-1
0
1
没有模型匹配当前搜索和筛选条件。
排名
模型
公司
额外格式 次数
↓
分类得分
↕
总成本
↕
测试正确
↕
响应时间(平均)
↕
#107
North Mini Code
medium
Cohere
1
2.8
$0.000
0/1
323.1s
总测试数
1
错误测试数
1
总成本
$0.000
响应时间(平均)
323.1s
按 额外格式 次数 排名的顶级模型
额外格式 次数 对比 分数
按 响应时间(平均) 排名的顶级模型
按 预估浪费成本 排名的顶级模型