#1
Google
リリース: 2025-12-17
テスト日時: 2026-05-21 15:51
google/gemini-3-flash-preview::medium
????
$0.500 / 1M
????
$3.000 / 1M
不安定なテスト
0
不安定なテストは、実行間で結果が混在しています(少なくとも1回合格かつ1回失敗)。
実行履歴
| テスト日時 | スコア | 信頼性 | 正解テスト | 合計コスト | 比較する |
|---|---|---|---|---|---|
| 2026-05-21 15:51 新しいテストを追加 | 9.7 | 10.0 | $0.509 | 現在の実行 | |
| 2026-05-06 13:52 スイート変更 | 10.0 | 10.0 | $0.321 | 比較する | |
| 2026-05-06 13:38 スイート変更 | 9.8 | 10.0 | $0.320 | 比較する | |
| 2026-04-23 15:25 再テスト | 10.0 | 該当なし | $0.108 | 比較する | |
| 2026-04-11 01:44 最初に記録された実行 | 10.0 | 該当なし | $0.314 | 比較する |
この実行では別のベンチマークスイートが使われました。履歴の変化を読むときはスイート変更も考慮してください。
チャート
最初のモデルを選択し、次に2つ目のモデルをクリックして並列比較ページを開きます。