????
$0.000 / 1M
????
$0.000 / 1M
不安定なテスト
3
不安定なテストは、実行間で結果が混在しています(少なくとも1回合格かつ1回失敗)。
実行履歴
| テスト日時 | スコア | 信頼性 | 正解テスト | 合計コスト | 比較する |
|---|---|---|---|---|---|
| 2026-05-08 15:31 スイート変更 | 5.2 | 10.0 | $0.011 | 現在の実行 | |
| 2026-04-21 12:42 最初に記録された実行 | 5.2 | 該当なし | $0.009 | 比較する |
この実行では別のベンチマークスイートが使われました。履歴の変化を読むときはスイート変更も考慮してください。
チャート
最初のモデルを選択し、次に2つ目のモデルをクリックして並列比較ページを開きます。
クイック比較
gpt-oss-120bnone無料で利用可能vsGLM 4.7 Flashnonegpt-oss-120bnone無料で利用可能vsgpt-oss-120bmedium無料で利用可能gpt-oss-120bnone無料で利用可能vsGPT-5.4nonegpt-oss-120bnone無料で利用可能vsMiMo-V2-Prononegpt-oss-120bnone無料で利用可能vsGLM 5.1nonegpt-oss-120bnone無料で利用可能vsGemini 3 Flash Previewmediumgpt-oss-120bnone無料で利用可能vsGemini 3.5 Flashhighgpt-oss-120bnone無料で利用可能vsRing-2.6-1Tmediumgpt-oss-120bnone無料で利用可能vsGemini 3.5 Flashlow