| #61#61 |
DeepSeek V4 Pronone
|
6.7… |
DeepSeek |
$0.030… |
23.34s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 6 余分な書式: 2 指示に従っていない: 1
応答時間(平均)23.34s
応答時間(最大)109.46s
応答時間(合計)420.04s
…
|
合計テスト数: 18
誤答テスト数: 9
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 51.9%
不安定なテスト: 1…
出力トークン: 1,611
推論トークン: 0
応答時間: 平均 23.34s · 合計 420.04s · 最大 109.46s
-
反AIトリック
: 4.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 余分な書式: 1
応答時間(平均)36.12s
応答時間(最大)109.46s
応答時間(合計)144.50s
-
コーディング
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)33.40s
応答時間(最大)33.40s
応答時間(合計)33.40s
-
複合
: 9.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)34.55s
応答時間(最大)34.55s
応答時間(合計)34.55s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)54.04s
応答時間(最大)105.46s
応答時間(合計)108.08s
-
ドメイン特化
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)3.08s
応答時間(最大)6.59s
応答時間(合計)9.24s
-
汎用知能
: 4.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)6.06s
応答時間(最大)6.06s
応答時間(合計)6.06s
-
指示追従
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)9.47s
応答時間(最大)13.43s
応答時間(合計)18.95s
-
パズル解決
: 6.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
余分な書式: 1 指示に従っていない: 1
応答時間(平均)19.60s
応答時間(最大)38.42s
応答時間(合計)58.79s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)6.47s
応答時間(最大)6.47s
応答時間(合計)6.47s
|
| #62#62 |
Grok 4.1 Fastmedium
|
6.7… |
X AI |
$0.056… |
23.88s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 4 不正解: 3 回答なし: 1 タイムアウト: 1
応答時間(平均)23.88s
応答時間(最大)121.79s
応答時間(合計)262.66s
…
|
合計テスト数: 18
誤答テスト数: 9
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 64.8%
不安定なテスト: 6…
出力トークン: 2,010
推論トークン: 91,298
応答時間: 平均 23.88s · 合計 262.66s · 最大 121.79s
-
反AIトリック
: 8.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)3.81s
応答時間(最大)5.65s
応答時間(合計)7.62s
-
コーディング
: 2.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)23.58s
応答時間(最大)23.58s
応答時間(合計)23.58s
-
複合
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)37.64s
応答時間(最大)37.64s
応答時間(合計)37.64s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)6.63s
応答時間(最大)6.63s
応答時間(合計)6.63s
-
ドメイン特化
: 5.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
タイムアウト: 1 不正解: 1
応答時間(平均)121.79s
応答時間(最大)121.79s
応答時間(合計)121.79s
-
汎用知能
: 4.2
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)16.25s
応答時間(最大)16.25s
応答時間(合計)16.25s
-
指示追従
: 6.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)5.30s
応答時間(最大)5.30s
応答時間(合計)5.30s
-
パズル解決
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)8.08s
応答時間(最大)8.38s
応答時間(合計)16.17s
-
ツール呼び出し
: 2.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
回答なし: 1
応答時間(平均)27.71s
応答時間(最大)27.71s
応答時間(合計)27.71s
|
| #63#63 |
GLM 5none
|
6.6… |
Z.ai |
$0.020… |
4.23s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 9
応答時間(平均)4.23s
応答時間(最大)11.07s
応答時間(合計)46.51s
…
|
合計テスト数: 18
誤答テスト数: 9
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 51.9%
不安定なテスト: 1…
出力トークン: 1,959
推論トークン: 0
応答時間: 平均 4.23s · 合計 46.51s · 最大 11.07s
-
反AIトリック
: 4.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)2.37s
応答時間(最大)3.39s
応答時間(合計)4.75s
-
コーディング
: 5.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)8.84s
応答時間(最大)8.84s
応答時間(合計)8.84s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)4.98s
応答時間(最大)4.98s
応答時間(合計)4.98s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)5.78s
応答時間(最大)5.78s
応答時間(合計)5.78s
-
ドメイン特化
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)2.24s
応答時間(最大)2.24s
応答時間(合計)2.24s
-
汎用知能
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)3.27s
応答時間(最大)3.27s
応答時間(合計)3.27s
-
指示追従
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.48s
応答時間(最大)1.48s
応答時間(合計)1.48s
-
パズル解決
: 7.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)2.05s
応答時間(最大)2.08s
応答時間(合計)4.10s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)11.07s
応答時間(最大)11.07s
応答時間(合計)11.07s
|
| #64#64 |
Mercury 2medium
|
6.5… |
Inception |
$0.047… |
2.21s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 6 指示に従っていない: 4
応答時間(平均)2.21s
応答時間(最大)14.63s
応答時間(合計)37.51s
…
|
合計テスト数: 18
誤答テスト数: 10
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 53.7%
不安定なテスト: 3…
出力トークン: 3,972
推論トークン: 48,333
応答時間: 平均 2.21s · 合計 37.51s · 最大 14.63s
-
反AIトリック
: 6.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)1.12s
応答時間(最大)2.46s
応答時間(合計)4.49s
-
コーディング
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.53s
応答時間(最大)1.53s
応答時間(合計)1.53s
-
複合
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)3.28s
応答時間(最大)3.28s
応答時間(合計)3.28s
-
データ解析と抽出
: 7.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)1.11s
応答時間(最大)1.47s
応答時間(合計)2.21s
-
ドメイン特化
: 2.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)6.48s
応答時間(最大)14.63s
応答時間(合計)19.43s
-
汎用知能
: 4.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)821ms
応答時間(最大)821ms
応答時間(合計)821ms
-
指示追従
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.07s
応答時間(最大)1.07s
応答時間(合計)1.07s
-
パズル解決
: 3.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 2 不正解: 1
応答時間(平均)934ms
応答時間(最大)1.18s
応答時間(合計)2.80s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.89s
応答時間(最大)1.89s
応答時間(合計)1.89s
|
| #65#65 |
MiMo-V2-Omninone
|
6.5… |
Xiaomi |
$0.007… |
1.99s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 8 指示に従っていない: 2
応答時間(平均)1.99s
応答時間(最大)6.81s
応答時間(合計)35.81s
…
|
合計テスト数: 18
誤答テスト数: 10
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 44.4%
不安定なテスト: 0…
出力トークン: 868
推論トークン: 0
応答時間: 平均 1.99s · 合計 35.81s · 最大 6.81s
-
反AIトリック
: 4.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)1.10s
応答時間(最大)2.08s
応答時間(合計)4.39s
-
コーディング
: 6.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)1.72s
応答時間(最大)1.72s
応答時間(合計)1.72s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)2.47s
応答時間(最大)2.47s
応答時間(合計)2.47s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.69s
応答時間(最大)2.46s
応答時間(合計)3.38s
-
ドメイン特化
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)1.14s
応答時間(最大)1.63s
応答時間(合計)3.41s
-
汎用知能
: 4.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)1.19s
応答時間(最大)1.19s
応答時間(合計)1.19s
-
指示追従
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)4.18s
応答時間(最大)6.81s
応答時間(合計)8.36s
-
パズル解決
: 8.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)2.71s
応答時間(最大)5.96s
応答時間(合計)8.14s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)2.76s
応答時間(最大)2.76s
応答時間(合計)2.76s
|
| #66#66 |
Grok 4.20 Multi Agent Betamediumアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。
|
6.4… |
X AI |
$5.074… |
9.80s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 4 不正解: 3 API エラー: 2 余分な書式: 2
応答時間(平均)9.80s
応答時間(最大)35.28s
応答時間(合計)156.75s
…
|
合計テスト数: 18
誤答テスト数: 11
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 57.4%
不安定なテスト: 6…
出力トークン: 299,034
推論トークン: 309,670
応答時間: 平均 9.80s · 合計 156.75s · 最大 35.28s
-
反AIトリック
: 6.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
余分な書式: 1 不正解: 1
応答時間(平均)3.46s
応答時間(最大)4.38s
応答時間(合計)13.86s
-
コーディング
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)27.11s
応答時間(最大)27.11s
応答時間(合計)27.11s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)5.54s
応答時間(最大)7.51s
応答時間(合計)11.08s
-
ドメイン特化
: 2.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 余分な書式: 1
応答時間(平均)24.67s
応答時間(最大)35.28s
応答時間(合計)74.02s
-
汎用知能
: 5.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)6.40s
応答時間(最大)6.40s
応答時間(合計)6.40s
-
指示追従
: 8.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)4.63s
応答時間(最大)5.46s
応答時間(合計)9.26s
-
パズル解決
: 7.2
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 2
応答時間(平均)5.01s
応答時間(最大)5.49s
応答時間(合計)15.03s
-
ツール呼び出し
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
|
| #67#67 |
GPT-5 Nanomedium
|
6.3… |
OpenAI |
$0.066… |
44.13s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 7 指示に従っていない: 3 タイムアウト: 1
応答時間(平均)44.13s
応答時間(最大)204.02s
応答時間(合計)485.47s
…
|
合計テスト数: 18
誤答テスト数: 11
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 59.3%
不安定なテスト: 8…
出力トークン: 4,980
推論トークン: 156,288
応答時間: 平均 44.13s · 合計 485.47s · 最大 204.02s
-
反AIトリック
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)25.50s
応答時間(最大)37.73s
応答時間(合計)51.00s
-
コーディング
: 6.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)40.73s
応答時間(最大)40.73s
応答時間(合計)40.73s
-
複合
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)65.96s
応答時間(最大)65.96s
応答時間(合計)65.96s
-
データ解析と抽出
: 3.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)21.42s
応答時間(最大)21.42s
応答時間(合計)21.42s
-
ドメイン特化
: 5.2
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
タイムアウト: 1 不正解: 1
応答時間(平均)204.02s
応答時間(最大)204.02s
応答時間(合計)204.02s
-
汎用知能
: 4.1
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)17.51s
応答時間(最大)17.51s
応答時間(合計)17.51s
-
指示追従
: 8.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)11.90s
応答時間(最大)11.90s
応答時間(合計)11.90s
-
パズル解決
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)19.81s
応答時間(最大)21.31s
応答時間(合計)39.63s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)33.30s
応答時間(最大)33.30s
応答時間(合計)33.30s
|
| #68#68 |
GLM 5V Turbonone
|
6.2… |
Z.ai |
$0.044… |
3.10s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 8 指示に従っていない: 2
応答時間(平均)3.10s
応答時間(最大)6.51s
応答時間(合計)55.87s
…
|
合計テスト数: 18
誤答テスト数: 10
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 44.4%
不安定なテスト: 0…
出力トークン: 1,724
推論トークン: 0
応答時間: 平均 3.10s · 合計 55.87s · 最大 6.51s
-
反AIトリック
: 4.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)3.13s
応答時間(最大)5.90s
応答時間(合計)12.50s
-
コーディング
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)5.30s
応答時間(最大)5.30s
応答時間(合計)5.30s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)6.51s
応答時間(最大)6.51s
応答時間(合計)6.51s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)3.81s
応答時間(最大)5.69s
応答時間(合計)7.62s
-
ドメイン特化
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)2.09s
応答時間(最大)2.39s
応答時間(合計)6.26s
-
汎用知能
: 4.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)2.22s
応答時間(最大)2.22s
応答時間(合計)2.22s
-
指示追従
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)1.97s
応答時間(最大)2.43s
応答時間(合計)3.93s
-
パズル解決
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)2.22s
応答時間(最大)3.81s
応答時間(合計)6.67s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)4.86s
応答時間(最大)4.86s
応答時間(合計)4.86s
|
| #69#69 |
Qwen3.5-Flashnone
|
6.2… |
Qwen |
$0.006… |
3.25s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 9 指示に従っていない: 1
応答時間(平均)3.25s
応答時間(最大)13.73s
応答時間(合計)58.44s
…
|
合計テスト数: 18
誤答テスト数: 10
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 46.3%
不安定なテスト: 1…
出力トークン: 4,266
推論トークン: 0
応答時間: 平均 3.25s · 合計 58.44s · 最大 13.73s
-
反AIトリック
: 3.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 4
応答時間(平均)1.32s
応答時間(最大)3.89s
応答時間(合計)5.30s
-
コーディング
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.29s
応答時間(最大)1.29s
応答時間(合計)1.29s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)6.22s
応答時間(最大)6.22s
応答時間(合計)6.22s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.57s
応答時間(最大)1.83s
応答時間(合計)3.14s
-
ドメイン特化
: 7.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)905ms
応答時間(最大)1.10s
応答時間(合計)2.71s
-
汎用知能
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)803ms
応答時間(最大)803ms
応答時間(合計)803ms
-
指示追従
: 6.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)8.81s
応答時間(最大)13.73s
応答時間(合計)17.61s
-
パズル解決
: 3.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 指示に従っていない: 1
応答時間(平均)5.90s
応答時間(最大)12.19s
応答時間(合計)17.69s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)3.67s
応答時間(最大)3.67s
応答時間(合計)3.67s
|
| #70#70 |
Gemma 4 26B A4Bnone
|
6.2… |
Google |
$0.005… |
6.59s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 7 指示に従っていない: 3 タイムアウト: 1
応答時間(平均)6.59s
応答時間(最大)57.10s
応答時間(合計)118.61s
…
|
合計テスト数: 18
誤答テスト数: 11
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 48.2%
不安定なテスト: 3…
出力トークン: 1,783
推論トークン: 0
応答時間: 平均 6.59s · 合計 118.61s · 最大 57.10s
-
反AIトリック
: 8.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)1.28s
応答時間(最大)2.09s
応答時間(合計)5.13s
-
コーディング
: 4.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
タイムアウト: 1
応答時間(平均)7.07s
応答時間(最大)7.07s
応答時間(合計)7.07s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)30.53s
応答時間(最大)30.53s
応答時間(合計)30.53s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.70s
応答時間(最大)2.21s
応答時間(合計)3.41s
-
ドメイン特化
: 3.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)2.49s
応答時間(最大)4.23s
応答時間(合計)7.48s
-
汎用知能
: 4.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)3.54s
応答時間(最大)3.54s
応答時間(合計)3.54s
-
指示追従
: 4.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)1.08s
応答時間(最大)1.65s
応答時間(合計)2.15s
-
パズル解決
: 5.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)739ms
応答時間(最大)972ms
応答時間(合計)2.22s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)57.10s
応答時間(最大)57.10s
応答時間(合計)57.10s
|
| #71#71 |
Seed-2.0-Litenone
|
6.2… |
Bytedance Seed |
$0.016… |
2.53s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 10
応答時間(平均)2.53s
応答時間(最大)6.70s
応答時間(合計)45.46s
…
|
合計テスト数: 18
誤答テスト数: 10
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 55.6%
不安定なテスト: 5…
出力トークン: 3,129
推論トークン: 0
応答時間: 平均 2.53s · 合計 45.46s · 最大 6.70s
-
反AIトリック
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 4
応答時間(平均)2.43s
応答時間(最大)6.70s
応答時間(合計)9.73s
-
コーディング
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)4.61s
応答時間(最大)4.61s
応答時間(合計)4.61s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)6.59s
応答時間(最大)6.59s
応答時間(合計)6.59s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.82s
応答時間(最大)1.97s
応答時間(合計)3.63s
-
ドメイン特化
: 3.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)1.33s
応答時間(最大)1.53s
応答時間(合計)4.00s
-
汎用知能
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)3.45s
応答時間(最大)3.45s
応答時間(合計)3.45s
-
指示追従
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.06s
応答時間(最大)1.09s
応答時間(合計)2.12s
-
パズル解決
: 5.2
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)2.46s
応答時間(最大)4.23s
応答時間(合計)7.37s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)3.94s
応答時間(最大)3.94s
応答時間(合計)3.94s
|
| #72#72 |
Gemini 2.5 Flashnone
|
6.2… |
Google |
$0.013… |
903ms… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 10 指示に従っていない: 1
応答時間(平均)903ms
応答時間(最大)4.39s
応答時間(合計)16.26s
…
|
合計テスト数: 18
誤答テスト数: 11
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 44.4%
不安定なテスト: 2…
出力トークン: 1,726
推論トークン: 0
応答時間: 平均 903ms · 合計 16.26s · 最大 4.39s
-
反AIトリック
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 4
応答時間(平均)582ms
応答時間(最大)844ms
応答時間(合計)2.33s
-
コーディング
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.16s
応答時間(最大)1.16s
応答時間(合計)1.16s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)4.39s
応答時間(最大)4.39s
応答時間(合計)4.39s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)652ms
応答時間(最大)660ms
応答時間(合計)1.30s
-
ドメイン特化
: 5.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)495ms
応答時間(最大)642ms
応答時間(合計)1.49s
-
汎用知能
: 5.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)615ms
応答時間(最大)615ms
応答時間(合計)615ms
-
指示追従
: 8.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)672ms
応答時間(最大)785ms
応答時間(合計)1.34s
-
パズル解決
: 5.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)576ms
応答時間(最大)700ms
応答時間(合計)1.73s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.91s
応答時間(最大)1.91s
応答時間(合計)1.91s
|
| #73#73 |
Qwen3.5-35B-A3Bnone
|
6.1… |
Qwen |
$0.016… |
3.82s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 9 指示に従っていない: 2
応答時間(平均)3.82s
応答時間(最大)47.43s
応答時間(合計)68.74s
…
|
合計テスト数: 18
誤答テスト数: 11
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 50.0%
不安定なテスト: 3…
出力トークン: 4,300
推論トークン: 0
応答時間: 平均 3.82s · 合計 68.74s · 最大 47.43s
-
反AIトリック
: 3.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 4
応答時間(平均)1.43s
応答時間(最大)4.39s
応答時間(合計)5.71s
-
コーディング
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)2.67s
応答時間(最大)2.67s
応答時間(合計)2.67s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)47.43s
応答時間(最大)47.43s
応答時間(合計)47.43s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.16s
応答時間(最大)1.42s
応答時間(合計)2.33s
-
ドメイン特化
: 7.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)485ms
応答時間(最大)549ms
応答時間(合計)1.45s
-
汎用知能
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)1.19s
応答時間(最大)1.19s
応答時間(合計)1.19s
-
指示追従
: 6.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)809ms
応答時間(最大)983ms
応答時間(合計)1.62s
-
パズル解決
: 3.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 指示に従っていない: 1
応答時間(平均)1.34s
応答時間(最大)2.25s
応答時間(合計)4.03s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)2.30s
応答時間(最大)2.30s
応答時間(合計)2.30s
|
| #74#74 |
DeepSeek V3.2none
|
6.0… |
DeepSeek |
$0.016… |
12.07s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 8 余分な書式: 2 無効なツール呼び出し: 1
応答時間(平均)12.07s
応答時間(最大)115.89s
応答時間(合計)217.28s
…
|
合計テスト数: 18
誤答テスト数: 11
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 46.3%
不安定なテスト: 3…
出力トークン: 8,378
推論トークン: 0
応答時間: 平均 12.07s · 合計 217.28s · 最大 115.89s
-
反AIトリック
: 3.2
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
余分な書式: 2 不正解: 2
応答時間(平均)7.63s
応答時間(最大)12.26s
応答時間(合計)30.54s
-
コーディング
: 2.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)7.63s
応答時間(最大)7.63s
応答時間(合計)7.63s
-
複合
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)115.89s
応答時間(最大)115.89s
応答時間(合計)115.89s
-
データ解析と抽出
: 6.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)9.42s
応答時間(最大)16.20s
応答時間(合計)18.84s
-
ドメイン特化
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)1.52s
応答時間(最大)1.77s
応答時間(合計)4.55s
-
汎用知能
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)2.86s
応答時間(最大)2.86s
応答時間(合計)2.86s
-
指示追従
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.52s
応答時間(最大)1.99s
応答時間(合計)3.04s
-
パズル解決
: 8.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)7.37s
応答時間(最大)10.78s
応答時間(合計)22.10s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)11.85s
応答時間(最大)11.85s
応答時間(合計)11.85s
|
| #75#75 |
MiMo-V2-Pronone
|
6.0… |
Xiaomi |
$0.043… |
2.39s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 9 指示に従っていない: 2
応答時間(平均)2.39s
応答時間(最大)6.58s
応答時間(合計)43.06s
…
|
合計テスト数: 18
誤答テスト数: 11
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 48.2%
不安定なテスト: 3…
出力トークン: 2,320
推論トークン: 0
応答時間: 平均 2.39s · 合計 43.06s · 最大 6.58s
-
反AIトリック
: 3.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 4
応答時間(平均)1.80s
応答時間(最大)2.62s
応答時間(合計)7.19s
-
コーディング
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)3.82s
応答時間(最大)3.82s
応答時間(合計)3.82s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)6.58s
応答時間(最大)6.58s
応答時間(合計)6.58s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.39s
応答時間(最大)1.42s
応答時間(合計)2.78s
-
ドメイン特化
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)1.78s
応答時間(最大)2.49s
応答時間(合計)5.34s
-
汎用知能
: 4.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)2.44s
応答時間(最大)2.44s
応答時間(合計)2.44s
-
指示追従
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)2.51s
応答時間(最大)2.95s
応答時間(合計)5.02s
-
パズル解決
: 6.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)1.83s
応答時間(最大)2.15s
応答時間(合計)5.50s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)4.39s
応答時間(最大)4.39s
応答時間(合計)4.39s
|
| #76#76 |
GPT-5.4none
|
5.9… |
OpenAI |
$0.104… |
1.51s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 10 指示に従っていない: 1
応答時間(平均)1.51s
応答時間(最大)2.95s
応答時間(合計)27.21s
…
|
合計テスト数: 18
誤答テスト数: 11
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 42.6%
不安定なテスト: 2…
出力トークン: 2,317
推論トークン: 0
応答時間: 平均 1.51s · 合計 27.21s · 最大 2.95s
-
反AIトリック
: 3.2
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 4
応答時間(平均)1.21s
応答時間(最大)2.58s
応答時間(合計)4.85s
-
コーディング
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)2.95s
応答時間(最大)2.95s
応答時間(合計)2.95s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)2.89s
応答時間(最大)2.89s
応答時間(合計)2.89s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.04s
応答時間(最大)1.06s
応答時間(合計)2.08s
-
ドメイン特化
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)1.07s
応答時間(最大)1.54s
応答時間(合計)3.22s
-
汎用知能
: 4.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)1.78s
応答時間(最大)1.78s
応答時間(合計)1.78s
-
指示追従
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)1.07s
応答時間(最大)1.17s
応答時間(合計)2.15s
-
パズル解決
: 5.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)1.52s
応答時間(最大)1.82s
応答時間(合計)4.56s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)2.75s
応答時間(最大)2.75s
応答時間(合計)2.75s
|
| #77#77 |
Qwen3.5-27Bnone
|
5.9… |
Qwen |
$0.016… |
1.74s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 10 指示に従っていない: 2
応答時間(平均)1.74s
応答時間(最大)9.39s
応答時間(合計)31.32s
…
|
合計テスト数: 18
誤答テスト数: 12
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 38.9%
不安定なテスト: 2…
出力トークン: 3,545
推論トークン: 0
応答時間: 平均 1.74s · 合計 31.32s · 最大 9.39s
-
反AIトリック
: 4.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)788ms
応答時間(最大)1.34s
応答時間(合計)3.15s
-
コーディング
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)2.51s
応答時間(最大)2.51s
応答時間(合計)2.51s
-
複合
: 2.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)9.39s
応答時間(最大)9.39s
応答時間(合計)9.39s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.43s
応答時間(最大)1.45s
応答時間(合計)2.86s
-
ドメイン特化
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)540ms
応答時間(最大)649ms
応答時間(合計)1.62s
-
汎用知能
: 5.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)2.51s
応答時間(最大)2.51s
応答時間(合計)2.51s
-
指示追従
: 4.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)815ms
応答時間(最大)973ms
応答時間(合計)1.63s
-
パズル解決
: 6.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)1.37s
応答時間(最大)2.23s
応答時間(合計)4.12s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)3.54s
応答時間(最大)3.54s
応答時間(合計)3.54s
|
| #78#78 |
gpt-oss-120bmedium
|
5.8… |
OpenAI |
$0.011… |
16.08s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 7 指示に従っていない: 4
応答時間(平均)16.08s
応答時間(最大)50.92s
応答時間(合計)176.88s
…
|
合計テスト数: 18
誤答テスト数: 11
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 51.9%
不安定なテスト: 6…
出力トークン: 13,493
推論トークン: 36,879
応答時間: 平均 16.08s · 合計 176.88s · 最大 50.92s
-
反AIトリック
: 6.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)10.21s
応答時間(最大)19.76s
応答時間(合計)20.43s
-
コーディング
: 4.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)26.33s
応答時間(最大)26.33s
応答時間(合計)26.33s
-
複合
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)31.18s
応答時間(最大)31.18s
応答時間(合計)31.18s
-
データ解析と抽出
: 6.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)1.98s
応答時間(最大)1.98s
応答時間(合計)1.98s
-
ドメイン特化
: 2.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)50.92s
応答時間(最大)50.92s
応答時間(合計)50.92s
-
汎用知能
: 4.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)7.90s
応答時間(最大)7.90s
応答時間(合計)7.90s
-
指示追従
: 9.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)7.63s
応答時間(最大)7.63s
応答時間(合計)7.63s
-
パズル解決
: 3.2
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 2 不正解: 1
応答時間(平均)11.80s
応答時間(最大)12.60s
応答時間(合計)23.61s
-
ツール呼び出し
: 9.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)6.91s
応答時間(最大)6.91s
応答時間(合計)6.91s
|
| #79#79 |
Kimi K2.6none
|
5.8… |
Moonshot AI |
$0.038… |
2.05s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 8 指示に従っていない: 3
応答時間(平均)2.05s
応答時間(最大)6.65s
応答時間(合計)36.93s
…
|
合計テスト数: 18
誤答テスト数: 11
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 42.6%
不安定なテスト: 2…
出力トークン: 2,973
推論トークン: 0
応答時間: 平均 2.05s · 合計 36.93s · 最大 6.65s
-
反AIトリック
: 4.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)1.39s
応答時間(最大)2.96s
応答時間(合計)5.56s
-
コーディング
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)6.65s
応答時間(最大)6.65s
応答時間(合計)6.65s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)3.38s
応答時間(最大)3.38s
応答時間(合計)3.38s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.32s
応答時間(最大)1.39s
応答時間(合計)2.64s
-
ドメイン特化
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)1.48s
応答時間(最大)1.85s
応答時間(合計)4.45s
-
汎用知能
: 5.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)1.55s
応答時間(最大)1.55s
応答時間(合計)1.55s
-
指示追従
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)1.64s
応答時間(最大)1.80s
応答時間(合計)3.28s
-
パズル解決
: 3.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 2 不正解: 1
応答時間(平均)1.66s
応答時間(最大)1.81s
応答時間(合計)4.98s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)4.46s
応答時間(最大)4.46s
応答時間(合計)4.46s
|
| #80#80 |
MiMo-V2.5-Pronone
|
5.8… |
Xiaomi |
$0.033… |
1.51s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 10 指示に従っていない: 2
応答時間(平均)1.51s
応答時間(最大)3.54s
応答時間(合計)27.21s
…
|
合計テスト数: 18
誤答テスト数: 12
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 46.3%
不安定なテスト: 4…
出力トークン: 2,451
推論トークン: 0
応答時間: 平均 1.51s · 合計 27.21s · 最大 3.54s
-
反AIトリック
: 2.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 4
応答時間(平均)1.29s
応答時間(最大)2.83s
応答時間(合計)5.18s
-
コーディング
: 6.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)2.39s
応答時間(最大)2.39s
応答時間(合計)2.39s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)3.54s
応答時間(最大)3.54s
応答時間(合計)3.54s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.32s
応答時間(最大)1.42s
応答時間(合計)2.64s
-
ドメイン特化
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)877ms
応答時間(最大)904ms
応答時間(合計)2.63s
-
汎用知能
: 4.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)1.53s
応答時間(最大)1.53s
応答時間(合計)1.53s
-
指示追従
: 6.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)1.03s
応答時間(最大)1.10s
応答時間(合計)2.06s
-
パズル解決
: 6.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)1.32s
応答時間(最大)1.66s
応答時間(合計)3.95s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)3.30s
応答時間(最大)3.30s
応答時間(合計)3.30s
|
| #81#81 |
Qwen3.5-122B-A10Bnone
|
5.7… |
Qwen |
$0.022… |
3.69s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 11 指示に従っていない: 1
応答時間(平均)3.69s
応答時間(最大)46.00s
応答時間(合計)66.50s
…
|
合計テスト数: 18
誤答テスト数: 12
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 38.9%
不安定なテスト: 2…
出力トークン: 3,341
推論トークン: 0
応答時間: 平均 3.69s · 合計 66.50s · 最大 46.00s
-
反AIトリック
: 4.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)1.59s
応答時間(最大)3.60s
応答時間(合計)6.38s
-
コーディング
: 4.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)3.44s
応答時間(最大)3.44s
応答時間(合計)3.44s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)46.00s
応答時間(最大)46.00s
応答時間(合計)46.00s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.01s
応答時間(最大)1.06s
応答時間(合計)2.02s
-
ドメイン特化
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)465ms
応答時間(最大)492ms
応答時間(合計)1.39s
-
汎用知能
: 5.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)1.12s
応答時間(最大)1.12s
応答時間(合計)1.12s
-
指示追従
: 4.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)585ms
応答時間(最大)715ms
応答時間(合計)1.17s
-
パズル解決
: 5.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)982ms
応答時間(最大)1.36s
応答時間(合計)2.95s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)2.04s
応答時間(最大)2.04s
応答時間(合計)2.04s
|
| #82#82 |
MiniMax M2.5medium
|
5.7… |
Minimax |
$0.250… |
39.65s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 5 タイムアウト: 4 指示に従っていない: 3 無効なツール呼び出し: 1
応答時間(平均)39.65s
応答時間(最大)237.27s
応答時間(合計)396.47s
…
|
合計テスト数: 18
誤答テスト数: 13
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 57.4%
不安定なテスト: 10…
出力トークン: 107,044
推論トークン: 206,422
応答時間: 平均 39.65s · 合計 396.47s · 最大 237.27s
-
反AIトリック
: 7.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 タイムアウト: 1
応答時間(平均)20.82s
応答時間(最大)32.42s
応答時間(合計)41.63s
-
コーディング
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
タイムアウト: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
複合
: 4.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)60.39s
応答時間(最大)60.39s
応答時間(合計)60.39s
-
データ解析と抽出
: 4.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)7.48s
応答時間(最大)7.48s
応答時間(合計)7.48s
-
ドメイン特化
: 2.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 タイムアウト: 1
応答時間(平均)237.27s
応答時間(最大)237.27s
応答時間(合計)237.27s
-
汎用知能
: 3.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)6.63s
応答時間(最大)6.63s
応答時間(合計)6.63s
-
指示追従
: 8.1
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)4.64s
応答時間(最大)4.64s
応答時間(合計)4.64s
-
パズル解決
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
タイムアウト: 1 不正解: 1
応答時間(平均)11.54s
応答時間(最大)17.37s
応答時間(合計)23.08s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)15.35s
応答時間(最大)15.35s
応答時間(合計)15.35s
|
| #83#83 |
Hunter Alphanoneアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。
|
5.7… |
OpenRouter |
$0.000… |
4.58s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 9 指示に従っていない: 2 API エラー: 1
応答時間(平均)4.58s
応答時間(最大)15.17s
応答時間(合計)77.92s
…
|
合計テスト数: 18
誤答テスト数: 12
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 46.3%
不安定なテスト: 4…
出力トークン: 2,278
推論トークン: 0
応答時間: 平均 4.58s · 合計 77.92s · 最大 15.17s
-
反AIトリック
: 3.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 4
応答時間(平均)3.81s
応答時間(最大)6.85s
応答時間(合計)15.23s
-
コーディング
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)15.17s
応答時間(最大)15.17s
応答時間(合計)15.17s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)8.49s
応答時間(最大)14.02s
応答時間(合計)16.98s
-
ドメイン特化
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)2.33s
応答時間(最大)2.94s
応答時間(合計)6.99s
-
汎用知能
: 6.1
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)2.71s
応答時間(最大)2.71s
応答時間(合計)2.71s
-
指示追従
: 6.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)2.82s
応答時間(最大)2.92s
応答時間(合計)5.65s
-
パズル解決
: 5.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)3.06s
応答時間(最大)3.50s
応答時間(合計)9.19s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)6.02s
応答時間(最大)6.02s
応答時間(合計)6.02s
|
| #84#84 |
Mistral Small 4medium
|
5.7… |
Mistral |
$0.034… |
5.64s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 8 指示に従っていない: 3 API エラー: 2
応答時間(平均)5.64s
応答時間(最大)30.49s
応答時間(合計)101.52s
…
|
合計テスト数: 18
誤答テスト数: 13
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 50.0%
不安定なテスト: 7…
出力トークン: 15,084
推論トークン: 39,408
応答時間: 平均 5.64s · 合計 101.52s · 最大 30.49s
-
反AIトリック
: 5.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)2.67s
応答時間(最大)5.03s
応答時間(合計)10.66s
-
コーディング
: 6.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)30.49s
応答時間(最大)30.49s
応答時間(合計)30.49s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)25.25s
応答時間(最大)25.25s
応答時間(合計)25.25s
-
データ解析と抽出
: 7.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)1.23s
応答時間(最大)1.96s
応答時間(合計)2.46s
-
ドメイン特化
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1 不正解: 1
応答時間(平均)6.11s
応答時間(最大)13.72s
応答時間(合計)18.34s
-
汎用知能
: 4.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)2.05s
応答時間(最大)2.05s
応答時間(合計)2.05s
-
指示追従
: 7.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)1.38s
応答時間(最大)1.61s
応答時間(合計)2.75s
-
パズル解決
: 3.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 2 不正解: 1
応答時間(平均)2.00s
応答時間(最大)2.60s
応答時間(合計)6.01s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)3.50s
応答時間(最大)3.50s
応答時間(合計)3.50s
|
| #85#85 |
GLM 4.7 Flashnone
|
5.6… |
Z.ai |
$0.003… |
3.35s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 10 指示に従っていない: 2 無効なツール呼び出し: 1
応答時間(平均)3.35s
応答時間(最大)7.05s
応答時間(合計)36.90s
…
|
合計テスト数: 18
誤答テスト数: 13
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 37.0%
不安定なテスト: 3…
出力トークン: 2,489
推論トークン: 0
応答時間: 平均 3.35s · 合計 36.90s · 最大 7.05s
-
反AIトリック
: 5.2
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)5.51s
応答時間(最大)6.59s
応答時間(合計)11.02s
-
コーディング
: 6.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)5.57s
応答時間(最大)5.57s
応答時間(合計)5.57s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)3.22s
応答時間(最大)3.22s
応答時間(合計)3.22s
-
データ解析と抽出
: 7.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)4.82s
応答時間(最大)4.82s
応答時間(合計)4.82s
-
ドメイン特化
: 7.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)744ms
応答時間(最大)744ms
応答時間(合計)744ms
-
汎用知能
: 4.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)1.59s
応答時間(最大)1.59s
応答時間(合計)1.59s
-
指示追従
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)888ms
応答時間(最大)888ms
応答時間(合計)888ms
-
パズル解決
: 4.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 2 不正解: 1
応答時間(平均)1.00s
応答時間(最大)1.12s
応答時間(合計)2.00s
-
ツール呼び出し
: 2.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)7.05s
応答時間(最大)7.05s
応答時間(合計)7.05s
|
| #86#86 |
GLM 5.1none
|
5.6… |
Z.ai |
$0.053… |
4.33s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 10 指示に従っていない: 2 無効なツール呼び出し: 1
応答時間(平均)4.33s
応答時間(最大)32.57s
応答時間(合計)78.02s
…
|
合計テスト数: 18
誤答テスト数: 13
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 37.0%
不安定なテスト: 4…
出力トークン: 3,720
推論トークン: 0
応答時間: 平均 4.33s · 合計 78.02s · 最大 32.57s
-
反AIトリック
: 4.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 4
応答時間(平均)2.11s
応答時間(最大)3.94s
応答時間(合計)8.46s
-
コーディング
: 5.1
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)9.79s
応答時間(最大)9.79s
応答時間(合計)9.79s
-
複合
: 2.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)32.57s
応答時間(最大)32.57s
応答時間(合計)32.57s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.08s
応答時間(最大)1.62s
応答時間(合計)2.15s
-
ドメイン特化
: 2.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)1.99s
応答時間(最大)3.99s
応答時間(合計)5.98s
-
汎用知能
: 5.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)790ms
応答時間(最大)790ms
応答時間(合計)790ms
-
指示追従
: 8.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)1.58s
応答時間(最大)1.69s
応答時間(合計)3.17s
-
パズル解決
: 5.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)1.48s
応答時間(最大)2.09s
応答時間(合計)4.44s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)10.68s
応答時間(最大)10.68s
応答時間(合計)10.68s
|
| #87#87 |
Kimi K2.5none
|
5.5… |
Moonshot AI |
$0.017… |
13.37s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 12
応答時間(平均)13.37s
応答時間(最大)42.13s
応答時間(合計)147.05s
…
|
合計テスト数: 18
誤答テスト数: 12
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 40.7%
不安定なテスト: 3…
出力トークン: 2,659
推論トークン: 0
応答時間: 平均 13.37s · 合計 147.05s · 最大 42.13s
-
反AIトリック
: 3.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 4
応答時間(平均)6.24s
応答時間(最大)11.38s
応答時間(合計)12.48s
-
コーディング
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)38.78s
応答時間(最大)38.78s
応答時間(合計)38.78s
-
複合
: 2.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)19.16s
応答時間(最大)19.16s
応答時間(合計)19.16s
-
データ解析と抽出
: 7.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)42.13s
応答時間(最大)42.13s
応答時間(合計)42.13s
-
ドメイン特化
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)4.38s
応答時間(最大)4.38s
応答時間(合計)4.38s
-
汎用知能
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)4.00s
応答時間(最大)4.00s
応答時間(合計)4.00s
-
指示追従
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)2.67s
応答時間(最大)2.67s
応答時間(合計)2.67s
-
パズル解決
: 3.1
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)4.73s
応答時間(最大)7.81s
応答時間(合計)9.45s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)13.99s
応答時間(最大)13.99s
応答時間(合計)13.99s
|
| #88#88 |
GLM 5 Turbonone
|
5.5… |
Z.ai |
$0.032… |
2.94s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 10 指示に従っていない: 2
応答時間(平均)2.94s
応答時間(最大)8.21s
応答時間(合計)52.98s
…
|
合計テスト数: 18
誤答テスト数: 12
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 37.0%
不安定なテスト: 2…
出力トークン: 1,775
推論トークン: 0
応答時間: 平均 2.94s · 合計 52.98s · 最大 8.21s
-
反AIトリック
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 4
応答時間(平均)2.84s
応答時間(最大)4.15s
応答時間(合計)11.35s
-
コーディング
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)3.93s
応答時間(最大)3.93s
応答時間(合計)3.93s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)4.89s
応答時間(最大)4.89s
応答時間(合計)4.89s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)2.47s
応答時間(最大)2.48s
応答時間(合計)4.95s
-
ドメイン特化
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)1.97s
応答時間(最大)2.65s
応答時間(合計)5.92s
-
汎用知能
: 4.2
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)2.18s
応答時間(最大)2.18s
応答時間(合計)2.18s
-
指示追従
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)2.13s
応答時間(最大)2.53s
応答時間(合計)4.27s
-
パズル解決
: 5.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)2.43s
応答時間(最大)2.69s
応答時間(合計)7.28s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)8.21s
応答時間(最大)8.21s
応答時間(合計)8.21s
|
| #89#89 |
Ling 2.6 Flashnone
|
5.4… |
Inclusionai |
$0.000… |
11.33s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 7 指示に従っていない: 3 無効なツール呼び出し: 2
応答時間(平均)11.33s
応答時間(最大)35.34s
応答時間(合計)203.88s
…
|
合計テスト数: 18
誤答テスト数: 12
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 35.2%
不安定なテスト: 1…
出力トークン: 3,338
推論トークン: 0
応答時間: 平均 11.33s · 合計 203.88s · 最大 35.34s
-
反AIトリック
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)12.30s
応答時間(最大)16.60s
応答時間(合計)49.20s
-
コーディング
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)11.21s
応答時間(最大)11.21s
応答時間(合計)11.21s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)35.34s
応答時間(最大)35.34s
応答時間(合計)35.34s
-
データ解析と抽出
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)8.48s
応答時間(最大)12.71s
応答時間(合計)16.96s
-
ドメイン特化
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)4.94s
応答時間(最大)7.65s
応答時間(合計)14.81s
-
汎用知能
: 4.1
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)11.85s
応答時間(最大)11.85s
応答時間(合計)11.85s
-
指示追従
: 9.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)5.52s
応答時間(最大)8.19s
応答時間(合計)11.04s
-
パズル解決
: 2.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 2 不正解: 1
応答時間(平均)11.55s
応答時間(最大)17.06s
応答時間(合計)34.66s
-
ツール呼び出し
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)18.80s
応答時間(最大)18.80s
応答時間(合計)18.80s
|
| #90#90 |
Trinity Large Previewnone
|
5.3… |
Arcee AI |
$0.000… |
5.07s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 11 指示に従っていない: 2
応答時間(平均)5.07s
応答時間(最大)39.47s
応答時間(合計)91.23s
…
|
合計テスト数: 18
誤答テスト数: 13
信頼性: 該当なしこのモデルの信頼性テレメトリは利用できないか、不完全です。
試行ごとの合格率: 29.6%
不安定なテスト: 1…
出力トークン: 1,985
推論トークン: 0
応答時間: 平均 5.07s · 合計 91.23s · 最大 39.47s
-
反AIトリック
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 4
応答時間(平均)3.02s
応答時間(最大)8.17s
応答時間(合計)12.07s
-
コーディング
: 6.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)39.47s
応答時間(最大)39.47s
応答時間(合計)39.47s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)8.91s
応答時間(最大)8.91s
応答時間(合計)8.91s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)3.26s
応答時間(最大)4.66s
応答時間(合計)6.52s
-
ドメイン特化
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)877ms
応答時間(最大)894ms
応答時間(合計)2.63s
-
汎用知能
: 4.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)2.86s
応答時間(最大)2.86s
応答時間(合計)2.86s
-
指示追従
: 4.1
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)1.09s
応答時間(最大)1.23s
応答時間(合計)2.19s
-
パズル解決
: 5.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)3.30s
応答時間(最大)4.81s
応答時間(合計)9.91s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)6.67s
応答時間(最大)6.67s
応答時間(合計)6.67s
|