| #93#93 |
Qwen3.6 Plus Previewmediumアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。
|
6.3… |
Qwen |
$0.000
…
|
15.25s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 8 不正解: 2
応答時間(平均)15.25s
応答時間(最大)43.55s
応答時間(合計)182.96s
…
|
- 合計テスト数
- 19
- 誤答テスト数
- 10
- 信頼性
- 該当なしこのモデルの信頼性テレメトリは利用できません。
- 試行ごとの合格率
- 47.4%
- 入力トークン
- 32,639
- 出力トークン
- 1,153
- 推論トークン
- 62,197
- 応答時間(平均)
- 15.25s
- 応答時間(合計)
- 182.96s
- 応答時間(最大)
- 43.55s
-
反AIトリック
: 8.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)11.69s
応答時間(最大)19.37s
応答時間(合計)35.08s
-
コーディング
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
複合
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)34.95s
応答時間(最大)34.95s
応答時間(合計)34.95s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)14.95s
応答時間(最大)15.40s
応答時間(合計)29.90s
-
ドメイン特化
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 API エラー: 1
応答時間(平均)22.08s
応答時間(最大)43.55s
応答時間(合計)66.23s
-
汎用知能
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
指示追従
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)3.40s
応答時間(最大)3.40s
応答時間(合計)3.40s
-
パズル解決
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 2
応答時間(平均)7.52s
応答時間(最大)7.52s
応答時間(合計)7.52s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)5.87s
応答時間(最大)5.87s
応答時間(合計)5.87s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
|
| #104#104 |
Nemotron 3 Ultra 550b A55bnone
|
6.0… |
NVIDIA |
$0.000
…
|
2.27s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 12 指示に従っていない: 1
応答時間(平均)2.27s
応答時間(最大)13.49s
応答時間(合計)47.65s
…
|
- 合計テスト数
- 21
- 誤答テスト数
- 13
- 試行ごとの合格率
- 44.4%
- 入力トークン
- 43,326
- 出力トークン
- 2,138
- 推論トークン
- 0
- 応答時間(平均)
- 2.27s
- 応答時間(合計)
- 47.65s
- 応答時間(最大)
- 13.49s
-
反AIトリック
: 3.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 4
応答時間(平均)2.35s
応答時間(最大)6.55s
応答時間(合計)9.42s
-
コーディング
: 5.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)1.02s
応答時間(最大)1.83s
応答時間(合計)3.07s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)4.79s
応答時間(最大)4.79s
応答時間(合計)4.79s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.94s
応答時間(最大)2.86s
応答時間(合計)3.89s
-
ドメイン特化
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)698ms
応答時間(最大)1.00s
応答時間(合計)2.09s
-
汎用知能
: 5.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)13.49s
応答時間(最大)13.49s
応答時間(合計)13.49s
-
指示追従
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.46s
応答時間(最大)1.72s
応答時間(合計)2.92s
-
パズル解決
: 5.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)1.06s
応答時間(最大)1.53s
応答時間(合計)3.17s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)2.99s
応答時間(最大)2.99s
応答時間(合計)2.99s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)1.83s
応答時間(最大)1.83s
応答時間(合計)1.83s
|
| #107#107 |
Laguna Xs.2mediumアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。
|
5.8… |
Poolside |
$0.000
…
|
6.73s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 6 API エラー: 4 回答なし: 2 無効なツール呼び出し: 1
応答時間(平均)6.73s
応答時間(最大)29.11s
応答時間(合計)100.98s
…
|
- 合計テスト数
- 19
- 誤答テスト数
- 13
- 試行ごとの合格率
- 50.9%
- 入力トークン
- 39,481
- 出力トークン
- 54,218
- 推論トークン
- 0
- 応答時間(平均)
- 6.73s
- 応答時間(合計)
- 100.98s
- 応答時間(最大)
- 29.11s
-
反AIトリック
: 6.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1 不正解: 1
応答時間(平均)2.68s
応答時間(最大)3.09s
応答時間(合計)8.04s
-
コーディング
: 6.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)14.36s
応答時間(最大)14.36s
応答時間(合計)14.36s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)15.92s
応答時間(最大)15.92s
応答時間(合計)15.92s
-
データ解析と抽出
: 7.1
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
回答なし: 1
応答時間(平均)9.34s
応答時間(最大)16.71s
応答時間(合計)18.68s
-
ドメイン特化
: 4.1
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 回答なし: 1
応答時間(平均)11.12s
応答時間(最大)29.11s
応答時間(合計)33.35s
-
汎用知能
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
指示追従
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.68s
応答時間(最大)2.03s
応答時間(合計)3.36s
-
パズル解決
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1 不正解: 1
応答時間(平均)1.93s
応答時間(最大)1.97s
応答時間(合計)3.87s
-
ツール呼び出し
: 4.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)3.39s
応答時間(最大)3.39s
応答時間(合計)3.39s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
|
| #111#111 |
Owl Alphamedium
|
5.7… |
Openrouter |
$0.000
…
|
11.95s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 10 指示に従っていない: 2 API エラー: 1
応答時間(平均)11.95s
応答時間(最大)58.63s
応答時間(合計)250.88s
…
|
- 合計テスト数
- 21
- 誤答テスト数
- 13
- 試行ごとの合格率
- 39.7%
- 入力トークン
- 43,478
- 出力トークン
- 2,974
- 推論トークン
- 0
- 応答時間(平均)
- 11.95s
- 応答時間(合計)
- 250.88s
- 応答時間(最大)
- 58.63s
-
反AIトリック
: 4.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)3.97s
応答時間(最大)7.48s
応答時間(合計)15.89s
-
コーディング
: 5.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1 不正解: 1
応答時間(平均)18.74s
応答時間(最大)30.81s
応答時間(合計)56.21s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)10.01s
応答時間(最大)10.01s
応答時間(合計)10.01s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)21.64s
応答時間(最大)29.16s
応答時間(合計)43.28s
-
ドメイン特化
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)8.58s
応答時間(最大)9.48s
応答時間(合計)25.74s
-
汎用知能
: 4.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)58.63s
応答時間(最大)58.63s
応答時間(合計)58.63s
-
指示追従
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)10.15s
応答時間(最大)15.94s
応答時間(合計)20.30s
-
パズル解決
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)3.40s
応答時間(最大)4.60s
応答時間(合計)10.19s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)8.26s
応答時間(最大)8.26s
応答時間(合計)8.26s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)2.38s
応答時間(最大)2.38s
応答時間(合計)2.38s
|
| #116#116 |
Hunter Alphanoneアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。
|
5.7… |
OpenRouter |
$0.000
…
|
4.70s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 9 指示に従っていない: 2 API エラー: 1
応答時間(平均)4.70s
応答時間(最大)15.17s
応答時間(合計)79.86s
…
|
- 合計テスト数
- 18
- 誤答テスト数
- 12
- 信頼性
- 該当なしこのモデルの信頼性テレメトリは利用できません。
- 試行ごとの合格率
- 46.3%
- 入力トークン
- 34,329
- 出力トークン
- 2,264
- 推論トークン
- 0
- 応答時間(平均)
- 4.70s
- 応答時間(合計)
- 79.86s
- 応答時間(最大)
- 15.17s
-
反AIトリック
: 3.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 4
応答時間(平均)3.81s
応答時間(最大)6.85s
応答時間(合計)15.23s
-
コーディング
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)15.17s
応答時間(最大)15.17s
応答時間(合計)15.17s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)8.49s
応答時間(最大)14.02s
応答時間(合計)16.98s
-
ドメイン特化
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)2.33s
応答時間(最大)2.94s
応答時間(合計)6.99s
-
汎用知能
: 6.1
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)2.71s
応答時間(最大)2.71s
応答時間(合計)2.71s
-
指示追従
: 6.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)2.82s
応答時間(最大)2.92s
応答時間(合計)5.65s
-
パズル解決
: 5.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)3.71s
応答時間(最大)5.43s
応答時間(合計)11.13s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)6.02s
応答時間(最大)6.02s
応答時間(合計)6.02s
|
| #119#119 |
Cobuddymedium
|
5.6… |
Baidu |
$0.000
…
|
39.90s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 9 指示に従っていない: 3 API エラー: 1 無効なツール呼び出し: 1
応答時間(平均)39.90s
応答時間(最大)309.02s
応答時間(合計)797.98s
…
|
- 合計テスト数
- 21
- 誤答テスト数
- 14
- 試行ごとの合格率
- 47.6%
- 入力トークン
- 37,449
- 出力トークン
- 1,677
- 推論トークン
- 116,703
- 応答時間(平均)
- 39.90s
- 応答時間(合計)
- 797.98s
- 応答時間(最大)
- 309.02s
-
反AIトリック
: 8.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)10.00s
応答時間(最大)11.53s
応答時間(合計)39.99s
-
コーディング
: 3.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1 指示に従っていない: 1 不正解: 1
応答時間(平均)79.17s
応答時間(最大)104.76s
応答時間(合計)158.35s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)47.38s
応答時間(最大)47.38s
応答時間(合計)47.38s
-
データ解析と抽出
: 6.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)17.36s
応答時間(最大)26.57s
応答時間(合計)34.71s
-
ドメイン特化
: 2.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)128.15s
応答時間(最大)309.02s
応答時間(合計)384.46s
-
汎用知能
: 4.2
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)23.23s
応答時間(最大)23.23s
応答時間(合計)23.23s
-
指示追従
: 9.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)11.60s
応答時間(最大)14.49s
応答時間(合計)23.20s
-
パズル解決
: 3.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 指示に従っていない: 1
応答時間(平均)12.83s
応答時間(最大)24.40s
応答時間(合計)38.49s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)11.19s
応答時間(最大)11.19s
応答時間(合計)11.19s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)36.98s
応答時間(最大)36.98s
応答時間(合計)36.98s
|
| #121#121 |
Owl Alphanone
|
5.5… |
Openrouter |
$0.000
…
|
9.88s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 10 指示に従っていない: 3 余分な書式: 1
応答時間(平均)9.88s
応答時間(最大)47.10s
応答時間(合計)207.38s
…
|
- 合計テスト数
- 21
- 誤答テスト数
- 14
- 試行ごとの合格率
- 36.5%
- 入力トークン
- 42,283
- 出力トークン
- 5,913
- 推論トークン
- 0
- 応答時間(平均)
- 9.88s
- 応答時間(合計)
- 207.38s
- 応答時間(最大)
- 47.10s
-
反AIトリック
: 3.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3 指示に従っていない: 1
応答時間(平均)2.78s
応答時間(最大)3.09s
応答時間(合計)11.10s
-
コーディング
: 5.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
余分な書式: 1 不正解: 1
応答時間(平均)36.89s
応答時間(最大)47.10s
応答時間(合計)110.66s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)21.74s
応答時間(最大)21.74s
応答時間(合計)21.74s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)3.60s
応答時間(最大)3.92s
応答時間(合計)7.19s
-
ドメイン特化
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)3.00s
応答時間(最大)4.69s
応答時間(合計)8.99s
-
汎用知能
: 4.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)4.61s
応答時間(最大)4.61s
応答時間(合計)4.61s
-
指示追従
: 6.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)2.63s
応答時間(最大)2.77s
応答時間(合計)5.27s
-
パズル解決
: 5.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)4.18s
応答時間(最大)8.27s
応答時間(合計)12.54s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)22.78s
応答時間(最大)22.78s
応答時間(合計)22.78s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)2.50s
応答時間(最大)2.50s
応答時間(合計)2.50s
|
| #136#136 |
Elephant Alphamedium
|
5.1… |
Openrouter |
$0.000
…
|
1.27s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 9 API エラー: 3 指示に従っていない: 2 無効なツール呼び出し: 1
応答時間(平均)1.27s
応答時間(最大)3.70s
応答時間(合計)22.82s
…
|
- 合計テスト数
- 21
- 誤答テスト数
- 15
- 信頼性
- 該当なしこのモデルの信頼性テレメトリは利用できません。
- 試行ごとの合格率
- 30.2%
- 入力トークン
- 33,744
- 出力トークン
- 2,596
- 推論トークン
- 0
- 応答時間(平均)
- 1.27s
- 応答時間(合計)
- 22.82s
- 応答時間(最大)
- 3.70s
-
反AIトリック
: 6.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)1.19s
応答時間(最大)2.04s
応答時間(合計)4.75s
-
コーディング
: 3.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 2 不正解: 1
応答時間(平均)1.30s
応答時間(最大)1.30s
応答時間(合計)1.30s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)3.70s
応答時間(最大)3.70s
応答時間(合計)3.70s
-
データ解析と抽出
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)979ms
応答時間(最大)1.02s
応答時間(合計)1.96s
-
ドメイン特化
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)925ms
応答時間(最大)1.16s
応答時間(合計)2.77s
-
汎用知能
: 4.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)920ms
応答時間(最大)920ms
応答時間(合計)920ms
-
指示追従
: 9.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)987ms
応答時間(最大)1.13s
応答時間(合計)1.97s
-
パズル解決
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)868ms
応答時間(最大)972ms
応答時間(合計)2.60s
-
ツール呼び出し
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)2.83s
応答時間(最大)2.83s
応答時間(合計)2.83s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
|
| #137#137 |
Elephant Alphanone
|
5.1… |
Openrouter |
$0.000
…
|
1.22s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 9 API エラー: 3 指示に従っていない: 3 無効なツール呼び出し: 1
応答時間(平均)1.22s
応答時間(最大)3.81s
応答時間(合計)22.03s
…
|
- 合計テスト数
- 21
- 誤答テスト数
- 16
- 信頼性
- 該当なしこのモデルの信頼性テレメトリは利用できません。
- 試行ごとの合格率
- 27.0%
- 入力トークン
- 33,743
- 出力トークン
- 2,573
- 推論トークン
- 0
- 応答時間(平均)
- 1.22s
- 応答時間(合計)
- 22.03s
- 応答時間(最大)
- 3.81s
-
反AIトリック
: 6.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)963ms
応答時間(最大)1.68s
応答時間(合計)3.85s
-
コーディング
: 4.2
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 2 不正解: 1
応答時間(平均)1.39s
応答時間(最大)1.39s
応答時間(合計)1.39s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)3.81s
応答時間(最大)3.81s
応答時間(合計)3.81s
-
データ解析と抽出
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)1.04s
応答時間(最大)1.05s
応答時間(合計)2.08s
-
ドメイン特化
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)927ms
応答時間(最大)1.17s
応答時間(合計)2.78s
-
汎用知能
: 4.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)854ms
応答時間(最大)854ms
応答時間(合計)854ms
-
指示追従
: 9.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.03s
応答時間(最大)1.17s
応答時間(合計)2.07s
-
パズル解決
: 4.2
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 指示に従っていない: 1
応答時間(平均)807ms
応答時間(最大)925ms
応答時間(合計)2.42s
-
ツール呼び出し
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)2.79s
応答時間(最大)2.79s
応答時間(合計)2.79s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
|
| #145#145 |
Laguna M.1noneアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。
|
4.8… |
Poolside |
$0.000
…
|
2.89s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 10 API エラー: 4 無効なツール呼び出し: 1
応答時間(平均)2.89s
応答時間(最大)15.42s
応答時間(合計)43.28s
…
|
- 合計テスト数
- 19
- 誤答テスト数
- 15
- 試行ごとの合格率
- 31.6%
- 入力トークン
- 38,147
- 出力トークン
- 2,054
- 推論トークン
- 0
- 応答時間(平均)
- 2.89s
- 応答時間(合計)
- 43.28s
- 応答時間(最大)
- 15.42s
-
反AIトリック
: 3.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3 API エラー: 1
応答時間(平均)705ms
応答時間(最大)975ms
応答時間(合計)2.12s
-
コーディング
: 7.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)2.93s
応答時間(最大)2.93s
応答時間(合計)2.93s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)4.32s
応答時間(最大)4.32s
応答時間(合計)4.32s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)3.37s
応答時間(最大)5.76s
応答時間(合計)6.73s
-
ドメイン特化
: 3.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)5.50s
応答時間(最大)15.42s
応答時間(合計)16.50s
-
汎用知能
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
指示追従
: 6.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)683ms
応答時間(最大)691ms
応答時間(合計)1.37s
-
パズル解決
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 API エラー: 1
応答時間(平均)891ms
応答時間(最大)1.21s
応答時間(合計)1.78s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)7.54s
応答時間(最大)7.54s
応答時間(合計)7.54s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
|
| #146#146 |
Laguna Xs.2noneアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。
|
4.8… |
Poolside |
$0.000
…
|
806ms… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 8 API エラー: 4 指示に従っていない: 1 無効なツール呼び出し: 1
応答時間(平均)806ms
応答時間(最大)2.01s
応答時間(合計)12.09s
…
|
- 合計テスト数
- 19
- 誤答テスト数
- 14
- 試行ごとの合格率
- 26.3%
- 入力トークン
- 33,675
- 出力トークン
- 2,826
- 推論トークン
- 0
- 応答時間(平均)
- 806ms
- 応答時間(合計)
- 12.09s
- 応答時間(最大)
- 2.01s
-
反AIトリック
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 API エラー: 1 指示に従っていない: 1
応答時間(平均)534ms
応答時間(最大)906ms
応答時間(合計)1.60s
-
コーディング
: 2.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)1.96s
応答時間(最大)1.96s
応答時間(合計)1.96s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)2.01s
応答時間(最大)2.01s
応答時間(合計)2.01s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)646ms
応答時間(最大)658ms
応答時間(合計)1.29s
-
ドメイン特化
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)371ms
応答時間(最大)419ms
応答時間(合計)1.11s
-
汎用知能
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
指示追従
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)439ms
応答時間(最大)448ms
応答時間(合計)878ms
-
パズル解決
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1 不正解: 1
応答時間(平均)650ms
応答時間(最大)843ms
応答時間(合計)1.30s
-
ツール呼び出し
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)1.93s
応答時間(最大)1.93s
応答時間(合計)1.93s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
|
| #149#149 |
Nemotron 3 Nano Omni 30b A3b Reasoningmediumアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。
|
4.6… |
NVIDIA |
$0.000
…
|
17.13s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 7 API エラー: 6 指示に従っていない: 1 回答なし: 1
応答時間(平均)17.13s
応答時間(最大)147.45s
応答時間(合計)222.66s
…
|
- 合計テスト数
- 19
- 誤答テスト数
- 15
- 試行ごとの合格率
- 31.6%
- 入力トークン
- 11,661
- 出力トークン
- 48,491
- 推論トークン
- 180,695
- 応答時間(平均)
- 17.13s
- 応答時間(合計)
- 222.66s
- 応答時間(最大)
- 147.45s
-
反AIトリック
: 6.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1 不正解: 1
応答時間(平均)1.20s
応答時間(最大)1.48s
応答時間(合計)3.59s
-
コーディング
: 3.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)38.09s
応答時間(最大)38.09s
応答時間(合計)38.09s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
データ解析と抽出
: 7.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)2.72s
応答時間(最大)3.88s
応答時間(合計)5.43s
-
ドメイン特化
: 2.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 回答なし: 1
応答時間(平均)56.67s
応答時間(最大)147.45s
応答時間(合計)170.02s
-
汎用知能
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
指示追従
: 7.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)1.37s
応答時間(最大)1.56s
応答時間(合計)2.74s
-
パズル解決
: 2.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 API エラー: 1
応答時間(平均)1.40s
応答時間(最大)1.57s
応答時間(合計)2.79s
-
ツール呼び出し
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
|
| #162#162 |
Nemotron 3 Nano Omni 30b A3b Reasoningnoneアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。
|
4.1… |
NVIDIA |
$0.000
…
|
728ms… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 9 API エラー: 6 指示に従っていない: 2
応答時間(平均)728ms
応答時間(最大)2.21s
応答時間(合計)9.47s
…
|
- 合計テスト数
- 19
- 誤答テスト数
- 17
- 試行ごとの合格率
- 17.5%
- 入力トークン
- 11,661
- 出力トークン
- 1,302
- 推論トークン
- 0
- 応答時間(平均)
- 728ms
- 応答時間(合計)
- 9.47s
- 応答時間(最大)
- 2.21s
-
反AIトリック
: 4.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 API エラー: 1
応答時間(平均)584ms
応答時間(最大)772ms
応答時間(合計)1.75s
-
コーディング
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.27s
応答時間(最大)1.27s
応答時間(合計)1.27s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
データ解析と抽出
: 3.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)1.42s
応答時間(最大)2.21s
応答時間(合計)2.84s
-
ドメイン特化
: 3.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)489ms
応答時間(最大)513ms
応答時間(合計)1.47s
-
汎用知能
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
指示追従
: 4.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)541ms
応答時間(最大)542ms
応答時間(合計)1.08s
-
パズル解決
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1 指示に従っていない: 1 不正解: 1
応答時間(平均)532ms
応答時間(最大)580ms
応答時間(合計)1.06s
-
ツール呼び出し
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
|