AI BENCHY
比較する チャート
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

#50

Mercury 2

Inception · リリース: 2026-02-24 · inception/mercury-2::none

平均スコア

31

結果あたりのコスト

0.196

一貫性

89

合計コスト

$0.006

正解テスト

3

テストは、その全実行が合格した場合にのみ完全合格とみなされます。

誤答テスト数

12

試行ごとの合格率: 26.7%

不安定なテスト

2

応答時間: 平均 594ms · 合計 8.91s · 最大 1.27s

不正解: 11 指示に従っていない: 1

スコア上位モデル

最初のモデルを選択し、次に2つ目のモデルをクリックして並列比較ページを開きます。

クイック比較

カテゴリ内訳

カテゴリ 平均スコア 一貫性 正解テスト
Anti-AI Tricks 100 100 0/3
Combined 100 100 0/1
Data parsing and extraction 55 59 1/2
Domain specific 40 72 1/3
Instructions following 35 100 0/2
Puzzle Solving 100 100 0/3
Tool Calling 100 100 1/1