| #174#174 |
LFM2-24B-A2Bnoneアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。
|
2.4… |
Liquid |
$0.001
…
|
782ms… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 9 API エラー: 4 指示に従っていない: 1
応答時間(平均)782ms
応答時間(最大)3.15s
応答時間(合計)10.94s
…
|
- 合計テスト数
- 16
- 誤答テスト数
- 14
- 信頼性
- 該当なしこのモデルの信頼性テレメトリは利用できません。
- 試行ごとの合格率
- 12.7%
- 入力トークン
- 10,771
- 出力トークン
- 1,173
- 推論トークン
- 0
- 応答時間(平均)
- 782ms
- 応答時間(合計)
- 10.94s
- 応答時間(最大)
- 3.15s
-
反AIトリック
: 2.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)471ms
応答時間(最大)872ms
応答時間(合計)1.41s
-
コーディング
: 0.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
データ解析と抽出
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)714ms
応答時間(最大)987ms
応答時間(合計)1.43s
-
ドメイン特化
: 5.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1 不正解: 1
応答時間(平均)287ms
応答時間(最大)334ms
応答時間(合計)860ms
-
汎用知能
: 4.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)395ms
応答時間(最大)395ms
応答時間(合計)395ms
-
指示追従
: 6.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)752ms
応答時間(最大)1.22s
応答時間(合計)1.50s
-
パズル解決
: 3.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 API エラー: 1
応答時間(平均)1.78s
応答時間(最大)3.15s
応答時間(合計)5.34s
-
ツール呼び出し
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
雑学
: 0.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
|
| #173#173 |
Step 3.5 Flashnoneアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。
|
2.6… |
Stepfun |
$0.020
…
|
39.03s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 4 指示に従っていない: 1 不正解: 1
応答時間(平均)39.03s
応答時間(最大)114.12s
応答時間(合計)312.26s
…
|
- 合計テスト数
- 12
- 誤答テスト数
- 6
- 試行ごとの合格率
- 28.6%
- 入力トークン
- 1,971
- 出力トークン
- 64,795
- 推論トークン
- 0
- 応答時間(平均)
- 39.03s
- 応答時間(合計)
- 312.26s
- 応答時間(最大)
- 114.12s
-
反AIトリック
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)34.99s
応答時間(最大)109.60s
応答時間(合計)139.95s
-
コーディング
: 9.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
データ解析と抽出
: 1.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
ドメイン特化
: 3.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)34.54s
応答時間(最大)34.54s
応答時間(合計)34.54s
-
汎用知能
: 4.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)14.37s
応答時間(最大)14.37s
応答時間(合計)14.37s
-
指示追従
: 5.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)9.30s
応答時間(最大)9.30s
応答時間(合計)9.30s
-
パズル解決
: 0.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
ツール呼び出し
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)114.12s
応答時間(最大)114.12s
応答時間(合計)114.12s
|
| #172#172 |
Nemotron 3 Nano Omni 30b A3b Reasoningnoneアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。
|
3.5… |
NVIDIA |
$0.000
…
|
728ms… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 9 API エラー: 6 指示に従っていない: 2
応答時間(平均)728ms
応答時間(最大)2.21s
応答時間(合計)9.47s
…
|
- 合計テスト数
- 19
- 誤答テスト数
- 17
- 試行ごとの合格率
- 15.9%
- 入力トークン
- 11,661
- 出力トークン
- 1,302
- 推論トークン
- 0
- 応答時間(平均)
- 728ms
- 応答時間(合計)
- 9.47s
- 応答時間(最大)
- 2.21s
-
反AIトリック
: 4.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 API エラー: 1
応答時間(平均)584ms
応答時間(最大)772ms
応答時間(合計)1.75s
-
コーディング
: 3.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.27s
応答時間(最大)1.27s
応答時間(合計)1.27s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
データ解析と抽出
: 3.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)1.42s
応答時間(最大)2.21s
応答時間(合計)2.84s
-
ドメイン特化
: 3.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)489ms
応答時間(最大)513ms
応答時間(合計)1.47s
-
汎用知能
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
指示追従
: 4.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)541ms
応答時間(最大)542ms
応答時間(合計)1.08s
-
パズル解決
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1 指示に従っていない: 1 不正解: 1
応答時間(平均)532ms
応答時間(最大)580ms
応答時間(合計)1.06s
-
ツール呼び出し
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
|
| #171#171 |
Nemotron 3 Nano Omni 30b A3b Reasoningmediumアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。
|
3.6… |
NVIDIA |
$0.000
…
|
17.13s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 7 API エラー: 6 指示に従っていない: 1 回答なし: 1
応答時間(平均)17.13s
応答時間(最大)147.45s
応答時間(合計)222.66s
…
|
- 合計テスト数
- 19
- 誤答テスト数
- 15
- 試行ごとの合格率
- 28.6%
- 入力トークン
- 11,661
- 出力トークン
- 48,491
- 推論トークン
- 180,695
- 応答時間(平均)
- 17.13s
- 応答時間(合計)
- 222.66s
- 応答時間(最大)
- 147.45s
-
反AIトリック
: 6.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1 不正解: 1
応答時間(平均)1.20s
応答時間(最大)1.48s
応答時間(合計)3.59s
-
コーディング
: 1.1
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)38.09s
応答時間(最大)38.09s
応答時間(合計)38.09s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
データ解析と抽出
: 7.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)2.72s
応答時間(最大)3.88s
応答時間(合計)5.43s
-
ドメイン特化
: 2.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 回答なし: 1
応答時間(平均)56.67s
応答時間(最大)147.45s
応答時間(合計)170.02s
-
汎用知能
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
指示追従
: 7.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)1.37s
応答時間(最大)1.56s
応答時間(合計)2.74s
-
パズル解決
: 2.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 API エラー: 1
応答時間(平均)1.40s
応答時間(最大)1.57s
応答時間(合計)2.79s
-
ツール呼び出し
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
|
| #170#170 |
Qwen3.5-9Bmedium
|
3.8… |
Qwen |
$0.036
↑
…
|
82.24s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
タイムアウト: 11 回答なし: 2 不正解: 2 API エラー: 1 余分な書式: 1 指示に従っていない: 1
応答時間(平均)82.24s
応答時間(最大)226.38s
応答時間(合計)1315.88s
…
|
- 合計テスト数
- 21
- 誤答テスト数
- 18
- 試行ごとの合格率
- 27.0%
- 入力トークン
- 17,070
- 出力トークン
- 29,045
- 推論トークン
- 209,516
- 応答時間(平均)
- 82.24s
- 応答時間(合計)
- 1315.88s
- 応答時間(最大)
- 226.38s
-
反AIトリック
: 5.1
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
タイムアウト: 2 不正解: 1
応答時間(平均)34.44s
応答時間(最大)57.86s
応答時間(合計)103.31s
-
コーディング
: 2.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 回答なし: 1 タイムアウト: 1
応答時間(平均)100.88s
応答時間(最大)135.61s
応答時間(合計)201.75s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
タイムアウト: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
データ解析と抽出
: 3.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
余分な書式: 1 タイムアウト: 1
応答時間(平均)87.31s
応答時間(最大)87.31s
応答時間(合計)87.31s
-
ドメイン特化
: 3.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
タイムアウト: 3
応答時間(平均)137.75s
応答時間(最大)202.61s
応答時間(合計)413.24s
-
汎用知能
: 2.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
タイムアウト: 1
応答時間(平均)226.38s
応答時間(最大)226.38s
応答時間(合計)226.38s
-
指示追従
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
回答なし: 1
応答時間(平均)5.75s
応答時間(最大)5.75s
応答時間(合計)5.75s
-
パズル解決
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
タイムアウト: 2 不正解: 1
応答時間(平均)32.27s
応答時間(最大)47.31s
応答時間(合計)96.80s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)4.31s
応答時間(最大)4.31s
応答時間(合計)4.31s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)177.02s
応答時間(最大)177.02s
応答時間(合計)177.02s
|
| #169#169 |
gpt-oss-120bnone
|
4.0… |
OpenAI |
$0.009
↓
…
|
21.61s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 8 API エラー: 3 指示に従っていない: 2
応答時間(平均)21.61s
応答時間(最大)113.71s
応答時間(合計)345.79s
…
|
- 合計テスト数
- 19
- 誤答テスト数
- 13
- 試行ごとの合格率
- 34.9%
- 入力トークン
- 9,081
- 出力トークン
- 51,664
- 推論トークン
- 0
- 応答時間(平均)
- 21.61s
- 応答時間(合計)
- 345.79s
- 応答時間(最大)
- 113.71s
-
反AIトリック
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)32.84s
応答時間(最大)113.71s
応答時間(合計)131.35s
-
コーディング
: 1.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)9.57s
応答時間(最大)9.57s
応答時間(合計)9.57s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
データ解析と抽出
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)7.12s
応答時間(最大)7.12s
応答時間(合計)7.12s
-
ドメイン特化
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)34.98s
応答時間(最大)68.97s
応答時間(合計)104.94s
-
汎用知能
: 4.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)10.79s
応答時間(最大)10.79s
応答時間(合計)10.79s
-
指示追従
: 9.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)5.06s
応答時間(最大)5.85s
応答時間(合計)10.12s
-
パズル解決
: 6.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)8.21s
応答時間(最大)11.82s
応答時間(合計)24.62s
-
ツール呼び出し
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)47.29s
応答時間(最大)47.29s
応答時間(合計)47.29s
|
| #168#168 |
Granite 4.1 8Bnone
|
4.0… |
IBM Granite |
$0.003
…
|
728ms… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 13 指示に従っていない: 4 余分な書式: 1 無効なツール呼び出し: 1
応答時間(平均)728ms
応答時間(最大)2.17s
応答時間(合計)15.29s
…
|
- 合計テスト数
- 21
- 誤答テスト数
- 19
- 試行ごとの合格率
- 9.5%
- 入力トークン
- 46,285
- 出力トークン
- 2,911
- 推論トークン
- 0
- 応答時間(平均)
- 728ms
- 応答時間(合計)
- 15.29s
- 応答時間(最大)
- 2.17s
-
反AIトリック
: 4.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 指示に従っていない: 1
応答時間(平均)844ms
応答時間(最大)1.91s
応答時間(合計)3.38s
-
コーディング
: 4.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
余分な書式: 1 指示に従っていない: 1 不正解: 1
応答時間(平均)775ms
応答時間(最大)1.07s
応答時間(合計)2.33s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)1.88s
応答時間(最大)1.88s
応答時間(合計)1.88s
-
データ解析と抽出
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)575ms
応答時間(最大)583ms
応答時間(合計)1.15s
-
ドメイン特化
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)357ms
応答時間(最大)463ms
応答時間(合計)1.07s
-
汎用知能
: 4.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)499ms
応答時間(最大)499ms
応答時間(合計)499ms
-
指示追従
: 3.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)344ms
応答時間(最大)358ms
応答時間(合計)687ms
-
パズル解決
: 3.2
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 指示に従っていない: 1
応答時間(平均)608ms
応答時間(最大)960ms
応答時間(合計)1.82s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)2.17s
応答時間(最大)2.17s
応答時間(合計)2.17s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)306ms
応答時間(最大)306ms
応答時間(合計)306ms
|
| #167#167 |
Laguna Xs.2noneアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。
|
4.0… |
Poolside |
$0.004
↕
…
|
806ms… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 8 API エラー: 4 指示に従っていない: 1 無効なツール呼び出し: 1
応答時間(平均)806ms
応答時間(最大)2.01s
応答時間(合計)12.09s
…
|
- 合計テスト数
- 19
- 誤答テスト数
- 14
- 試行ごとの合格率
- 23.8%
- 入力トークン
- 33,675
- 出力トークン
- 2,826
- 推論トークン
- 0
- 応答時間(平均)
- 806ms
- 応答時間(合計)
- 12.09s
- 応答時間(最大)
- 2.01s
-
反AIトリック
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 API エラー: 1 指示に従っていない: 1
応答時間(平均)534ms
応答時間(最大)906ms
応答時間(合計)1.60s
-
コーディング
: 8.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)1.96s
応答時間(最大)1.96s
応答時間(合計)1.96s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)2.01s
応答時間(最大)2.01s
応答時間(合計)2.01s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)646ms
応答時間(最大)658ms
応答時間(合計)1.29s
-
ドメイン特化
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)371ms
応答時間(最大)419ms
応答時間(合計)1.11s
-
汎用知能
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
指示追従
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)439ms
応答時間(最大)448ms
応答時間(合計)878ms
-
パズル解決
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1 不正解: 1
応答時間(平均)650ms
応答時間(最大)843ms
応答時間(合計)1.30s
-
ツール呼び出し
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)1.93s
応答時間(最大)1.93s
応答時間(合計)1.93s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
|
| #166#166 |
Grok 4.1 Fastnoneアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。
|
4.0… |
X AI |
$0.008
↓
…
|
1.62s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 13 指示に従っていない: 3
応答時間(平均)1.62s
応答時間(最大)5.51s
応答時間(合計)19.48s
…
|
- 合計テスト数
- 19
- 誤答テスト数
- 16
- 試行ごとの合格率
- 20.6%
- 入力トークン
- 36,608
- 出力トークン
- 1,723
- 推論トークン
- 0
- 応答時間(平均)
- 1.62s
- 応答時間(合計)
- 19.48s
- 応答時間(最大)
- 5.51s
-
反AIトリック
: 3.2
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3 指示に従っていない: 1
応答時間(平均)1.07s
応答時間(最大)1.73s
応答時間(合計)2.15s
-
コーディング
: 1.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)1.79s
応答時間(最大)1.79s
応答時間(合計)1.79s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)3.33s
応答時間(最大)3.33s
応答時間(合計)3.33s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)943ms
応答時間(最大)943ms
応答時間(合計)943ms
-
ドメイン特化
: 5.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)1.06s
応答時間(最大)1.06s
応答時間(合計)1.06s
-
汎用知能
: 4.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)1.08s
応答時間(最大)1.08s
応答時間(合計)1.08s
-
指示追従
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)685ms
応答時間(最大)685ms
応答時間(合計)685ms
-
パズル解決
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)1.10s
応答時間(最大)1.36s
応答時間(合計)2.21s
-
ツール呼び出し
: 2.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)5.51s
応答時間(最大)5.51s
応答時間(合計)5.51s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)731ms
応答時間(最大)731ms
応答時間(合計)731ms
|
| #165#165 |
Grok Build 0.1noneアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。
|
4.2… |
X AI |
$0.547
…
|
28.69s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 7 API エラー: 3 指示に従っていない: 2
応答時間(平均)28.69s
応答時間(最大)138.35s
応答時間(合計)459.00s
…
|
- 合計テスト数
- 19
- 誤答テスト数
- 12
- 試行ごとの合格率
- 46.0%
- 入力トークン
- 11,793
- 出力トークン
- 267,275
- 推論トークン
- 0
- 応答時間(平均)
- 28.69s
- 応答時間(合計)
- 459.00s
- 応答時間(最大)
- 138.35s
-
反AIトリック
: 8.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)6.30s
応答時間(最大)9.80s
応答時間(合計)25.20s
-
コーディング
: 3.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)21.41s
応答時間(最大)21.41s
応答時間(合計)21.41s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
データ解析と抽出
: 3.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1 不正解: 1
応答時間(平均)9.33s
応答時間(最大)9.33s
応答時間(合計)9.33s
-
ドメイン特化
: 3.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 指示に従っていない: 1
応答時間(平均)103.71s
応答時間(最大)138.35s
応答時間(合計)311.13s
-
汎用知能
: 4.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)12.47s
応答時間(最大)12.47s
応答時間(合計)12.47s
-
指示追従
: 9.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)7.36s
応答時間(最大)11.05s
応答時間(合計)14.73s
-
パズル解決
: 6.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)9.55s
応答時間(最大)18.18s
応答時間(合計)28.65s
-
ツール呼び出し
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)36.09s
応答時間(最大)36.09s
応答時間(合計)36.09s
|
| #164#164 |
MiMo-V2-Flashnoneアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。
|
4.3… |
Xiaomi |
$0.025
↑
…
|
2.76s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 13 指示に従っていない: 2 API エラー: 1 余分な書式: 1
応答時間(平均)2.76s
応答時間(最大)19.68s
応答時間(合計)46.99s
…
|
- 合計テスト数
- 21
- 誤答テスト数
- 17
- 試行ごとの合格率
- 25.4%
- 入力トークン
- 36,851
- 出力トークン
- 68,882
- 推論トークン
- 0
- 応答時間(平均)
- 2.76s
- 応答時間(合計)
- 46.99s
- 応答時間(最大)
- 19.68s
-
反AIトリック
: 3.2
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 4
応答時間(平均)1.19s
応答時間(最大)2.73s
応答時間(合計)4.76s
-
コーディング
: 4.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 指示に従っていない: 1
応答時間(平均)2.64s
応答時間(最大)3.84s
応答時間(合計)7.92s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)2.87s
応答時間(最大)2.87s
応答時間(合計)2.87s
-
データ解析と抽出
: 2.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1 余分な書式: 1
応答時間(平均)19.68s
応答時間(最大)19.68s
応答時間(合計)19.68s
-
ドメイン特化
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)564ms
応答時間(最大)564ms
応答時間(合計)564ms
-
汎用知能
: 4.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)1.67s
応答時間(最大)1.67s
応答時間(合計)1.67s
-
指示追従
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)857ms
応答時間(最大)955ms
応答時間(合計)1.71s
-
パズル解決
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)1.86s
応答時間(最大)2.70s
応答時間(合計)3.71s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)2.28s
応答時間(最大)2.28s
応答時間(合計)2.28s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)1.82s
応答時間(最大)1.82s
応答時間(合計)1.82s
|
| #163#163 |
Hy3 previewnoneアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。
|
4.3… |
Tencent |
$0.003
↕
…
|
12.92s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 8 API エラー: 4 指示に従っていない: 4 余分な書式: 1
応答時間(平均)12.92s
応答時間(最大)35.84s
応答時間(合計)232.64s
…
|
- 合計テスト数
- 21
- 誤答テスト数
- 17
- 試行ごとの合格率
- 23.8%
- 入力トークン
- 27,172
- 出力トークン
- 2,661
- 推論トークン
- 0
- 応答時間(平均)
- 12.92s
- 応答時間(合計)
- 232.64s
- 応答時間(最大)
- 35.84s
-
反AIトリック
: 4.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 2 不正解: 1
応答時間(平均)11.10s
応答時間(最大)26.88s
応答時間(合計)44.41s
-
コーディング
: 2.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 2 不正解: 1
応答時間(平均)4.56s
応答時間(最大)4.56s
応答時間(合計)4.56s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)35.84s
応答時間(最大)35.84s
応答時間(合計)35.84s
-
データ解析と抽出
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)2.85s
応答時間(最大)2.85s
応答時間(合計)2.85s
-
ドメイン特化
: 3.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 API エラー: 1
応答時間(平均)17.61s
応答時間(最大)25.68s
応答時間(合計)52.82s
-
汎用知能
: 4.1
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)16.07s
応答時間(最大)16.07s
応答時間(合計)16.07s
-
指示追従
: 6.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
余分な書式: 1
応答時間(平均)12.98s
応答時間(最大)23.51s
応答時間(合計)25.95s
-
パズル解決
: 3.1
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 指示に従っていない: 1
応答時間(平均)4.56s
応答時間(最大)7.35s
応答時間(合計)13.67s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)33.76s
応答時間(最大)33.76s
応答時間(合計)33.76s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)2.71s
応答時間(最大)2.71s
応答時間(合計)2.71s
|
| #162#162 |
GLM 4.7 Flashmedium
|
4.3… |
Z.ai |
$0.054
…
|
35.10s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 9 回答なし: 3 指示に従っていない: 2 タイムアウト: 2 無効なツール呼び出し: 1
応答時間(平均)35.10s
応答時間(最大)174.55s
応答時間(合計)456.24s
…
|
- 合計テスト数
- 21
- 誤答テスト数
- 17
- 試行ごとの合格率
- 33.3%
- 入力トークン
- 37,206
- 出力トークン
- 43,754
- 推論トークン
- 89,079
- 応答時間(平均)
- 35.10s
- 応答時間(合計)
- 456.24s
- 応答時間(最大)
- 174.55s
-
反AIトリック
: 4.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 指示に従っていない: 1
応答時間(平均)14.95s
応答時間(最大)27.09s
応答時間(合計)29.90s
-
コーディング
: 3.2
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
タイムアウト: 2 回答なし: 1
応答時間(平均)55.33s
応答時間(最大)89.40s
応答時間(合計)110.66s
-
複合
: 2.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)65.57s
応答時間(最大)65.57s
応答時間(合計)65.57s
-
データ解析と抽出
: 6.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
回答なし: 1
応答時間(平均)1.51s
応答時間(最大)1.51s
応答時間(合計)1.51s
-
ドメイン特化
: 3.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 回答なし: 1
応答時間(平均)174.55s
応答時間(最大)174.55s
応答時間(合計)174.55s
-
汎用知能
: 3.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)18.14s
応答時間(最大)18.14s
応答時間(合計)18.14s
-
指示追従
: 6.2
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)2.97s
応答時間(最大)2.97s
応答時間(合計)2.97s
-
パズル解決
: 2.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 指示に従っていない: 1
応答時間(平均)12.93s
応答時間(最大)22.33s
応答時間(合計)25.85s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)15.95s
応答時間(最大)15.95s
応答時間(合計)15.95s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)11.13s
応答時間(最大)11.13s
応答時間(合計)11.13s
|
| #161#161 |
Laguna Xs.2mediumアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。
|
4.3… |
Poolside |
$0.015
↕
…
|
6.73s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 6 API エラー: 4 回答なし: 2 無効なツール呼び出し: 1
応答時間(平均)6.73s
応答時間(最大)29.11s
応答時間(合計)100.98s
…
|
- 合計テスト数
- 19
- 誤答テスト数
- 13
- 試行ごとの合格率
- 46.0%
- 入力トークン
- 39,481
- 出力トークン
- 54,218
- 推論トークン
- 0
- 応答時間(平均)
- 6.73s
- 応答時間(合計)
- 100.98s
- 応答時間(最大)
- 29.11s
-
反AIトリック
: 6.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1 不正解: 1
応答時間(平均)2.68s
応答時間(最大)3.09s
応答時間(合計)8.04s
-
コーディング
: 2.1
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)14.36s
応答時間(最大)14.36s
応答時間(合計)14.36s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)15.92s
応答時間(最大)15.92s
応答時間(合計)15.92s
-
データ解析と抽出
: 7.1
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
回答なし: 1
応答時間(平均)9.34s
応答時間(最大)16.71s
応答時間(合計)18.68s
-
ドメイン特化
: 4.1
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 回答なし: 1
応答時間(平均)11.12s
応答時間(最大)29.11s
応答時間(合計)33.35s
-
汎用知能
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
指示追従
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.68s
応答時間(最大)2.03s
応答時間(合計)3.36s
-
パズル解決
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1 不正解: 1
応答時間(平均)1.93s
応答時間(最大)1.97s
応答時間(合計)3.87s
-
ツール呼び出し
: 4.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)3.39s
応答時間(最大)3.39s
応答時間(合計)3.39s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
|
| #160#160 |
Grok 4.20none
|
4.4… |
X AI |
$0.057
↓
…
|
1.11s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 10 余分な書式: 1 無効なツール呼び出し: 1
応答時間(平均)1.11s
応答時間(最大)6.04s
応答時間(合計)19.96s
…
|
- 合計テスト数
- 18
- 誤答テスト数
- 12
- 信頼性
- 該当なしこのモデルの信頼性テレメトリは利用できません。
- 試行ごとの合格率
- 28.6%
- 入力トークン
- 41,313
- 出力トークン
- 1,923
- 推論トークン
- 0
- 応答時間(平均)
- 1.11s
- 応答時間(合計)
- 19.96s
- 応答時間(最大)
- 6.04s
-
反AIトリック
: 4.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)501ms
応答時間(最大)839ms
応答時間(合計)2.01s
-
コーディング
: 1.1
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)1.22s
応答時間(最大)1.22s
応答時間(合計)1.22s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)6.04s
応答時間(最大)6.04s
応答時間(合計)6.04s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)522ms
応答時間(最大)537ms
応答時間(合計)1.04s
-
ドメイン特化
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 余分な書式: 1
応答時間(平均)687ms
応答時間(最大)821ms
応答時間(合計)2.06s
-
汎用知能
: 4.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)659ms
応答時間(最大)659ms
応答時間(合計)659ms
-
指示追従
: 6.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)445ms
応答時間(最大)505ms
応答時間(合計)889ms
-
パズル解決
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)473ms
応答時間(最大)502ms
応答時間(合計)1.42s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)4.63s
応答時間(最大)4.63s
応答時間(合計)4.63s
-
雑学
: 0.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
|
| #159#159 |
Hunter Alphanoneアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。
|
4.5… |
OpenRouter |
$0.000
…
|
4.70s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 9 指示に従っていない: 2 API エラー: 1
応答時間(平均)4.70s
応答時間(最大)15.17s
応答時間(合計)79.86s
…
|
- 合計テスト数
- 18
- 誤答テスト数
- 12
- 信頼性
- 該当なしこのモデルの信頼性テレメトリは利用できません。
- 試行ごとの合格率
- 39.7%
- 入力トークン
- 34,329
- 出力トークン
- 2,264
- 推論トークン
- 0
- 応答時間(平均)
- 4.70s
- 応答時間(合計)
- 79.86s
- 応答時間(最大)
- 15.17s
-
反AIトリック
: 3.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 4
応答時間(平均)3.81s
応答時間(最大)6.85s
応答時間(合計)15.23s
-
コーディング
: 9.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)15.17s
応答時間(最大)15.17s
応答時間(合計)15.17s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)8.49s
応答時間(最大)14.02s
応答時間(合計)16.98s
-
ドメイン特化
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)2.33s
応答時間(最大)2.94s
応答時間(合計)6.99s
-
汎用知能
: 6.1
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)2.71s
応答時間(最大)2.71s
応答時間(合計)2.71s
-
指示追従
: 6.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)2.82s
応答時間(最大)2.92s
応答時間(合計)5.65s
-
パズル解決
: 5.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)3.71s
応答時間(最大)5.43s
応答時間(合計)11.13s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)6.02s
応答時間(最大)6.02s
応答時間(合計)6.02s
-
雑学
: 0.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
|
| #158#158 |
Elephant Alphamediumアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。
|
4.5… |
Openrouter |
$0.000
…
|
1.27s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 9 API エラー: 3 指示に従っていない: 2 無効なツール呼び出し: 1
応答時間(平均)1.27s
応答時間(最大)3.70s
応答時間(合計)22.82s
…
|
- 合計テスト数
- 21
- 誤答テスト数
- 15
- 信頼性
- 該当なしこのモデルの信頼性テレメトリは利用できません。
- 試行ごとの合格率
- 30.2%
- 入力トークン
- 33,744
- 出力トークン
- 2,596
- 推論トークン
- 0
- 応答時間(平均)
- 1.27s
- 応答時間(合計)
- 22.82s
- 応答時間(最大)
- 3.70s
-
反AIトリック
: 6.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)1.19s
応答時間(最大)2.04s
応答時間(合計)4.75s
-
コーディング
: 3.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 2 不正解: 1
応答時間(平均)1.30s
応答時間(最大)1.30s
応答時間(合計)1.30s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)3.70s
応答時間(最大)3.70s
応答時間(合計)3.70s
-
データ解析と抽出
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)979ms
応答時間(最大)1.02s
応答時間(合計)1.96s
-
ドメイン特化
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)925ms
応答時間(最大)1.16s
応答時間(合計)2.77s
-
汎用知能
: 4.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)920ms
応答時間(最大)920ms
応答時間(合計)920ms
-
指示追従
: 9.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)987ms
応答時間(最大)1.13s
応答時間(合計)1.97s
-
パズル解決
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)868ms
応答時間(最大)972ms
応答時間(合計)2.60s
-
ツール呼び出し
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)2.83s
応答時間(最大)2.83s
応答時間(合計)2.83s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
|
| #157#157 |
Elephant Alphanoneアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。
|
4.6… |
Openrouter |
$0.000
…
|
1.22s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 9 API エラー: 3 指示に従っていない: 3 無効なツール呼び出し: 1
応答時間(平均)1.22s
応答時間(最大)3.81s
応答時間(合計)22.03s
…
|
- 合計テスト数
- 21
- 誤答テスト数
- 16
- 信頼性
- 該当なしこのモデルの信頼性テレメトリは利用できません。
- 試行ごとの合格率
- 27.0%
- 入力トークン
- 33,743
- 出力トークン
- 2,573
- 推論トークン
- 0
- 応答時間(平均)
- 1.22s
- 応答時間(合計)
- 22.03s
- 応答時間(最大)
- 3.81s
-
反AIトリック
: 6.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)963ms
応答時間(最大)1.68s
応答時間(合計)3.85s
-
コーディング
: 4.2
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 2 不正解: 1
応答時間(平均)1.39s
応答時間(最大)1.39s
応答時間(合計)1.39s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)3.81s
応答時間(最大)3.81s
応答時間(合計)3.81s
-
データ解析と抽出
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)1.04s
応答時間(最大)1.05s
応答時間(合計)2.08s
-
ドメイン特化
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)927ms
応答時間(最大)1.17s
応答時間(合計)2.78s
-
汎用知能
: 4.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)854ms
応答時間(最大)854ms
応答時間(合計)854ms
-
指示追従
: 9.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.03s
応答時間(最大)1.17s
応答時間(合計)2.07s
-
パズル解決
: 4.2
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 指示に従っていない: 1
応答時間(平均)807ms
応答時間(最大)925ms
応答時間(合計)2.42s
-
ツール呼び出し
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)2.79s
応答時間(最大)2.79s
応答時間(合計)2.79s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
|
| #156#156 |
Mercury 2none
|
4.6… |
Inception |
$0.011
…
|
653ms… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 16 指示に従っていない: 1
応答時間(平均)653ms
応答時間(最大)1.43s
応答時間(合計)13.72s
…
|
- 合計テスト数
- 21
- 誤答テスト数
- 17
- 試行ごとの合格率
- 23.8%
- 入力トークン
- 28,113
- 出力トークン
- 4,439
- 推論トークン
- 0
- 応答時間(平均)
- 653ms
- 応答時間(合計)
- 13.72s
- 応答時間(最大)
- 1.43s
-
反AIトリック
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 4
応答時間(平均)483ms
応答時間(最大)716ms
応答時間(合計)1.93s
-
コーディング
: 3.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)1.03s
応答時間(最大)1.43s
応答時間(合計)3.10s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)606ms
応答時間(最大)606ms
応答時間(合計)606ms
-
データ解析と抽出
: 7.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)667ms
応答時間(最大)819ms
応答時間(合計)1.33s
-
ドメイン特化
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)534ms
応答時間(最大)733ms
応答時間(合計)1.60s
-
汎用知能
: 4.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)628ms
応答時間(最大)628ms
応答時間(合計)628ms
-
指示追従
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)551ms
応答時間(最大)622ms
応答時間(合計)1.10s
-
パズル解決
: 3.1
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)535ms
応答時間(最大)642ms
応答時間(合計)1.60s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.27s
応答時間(最大)1.27s
応答時間(合計)1.27s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)548ms
応答時間(最大)548ms
応答時間(合計)548ms
|
| #155#155 |
Laguna M.1noneアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。
|
4.6… |
Poolside |
$0.009
↕
…
|
2.89s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 10 API エラー: 4 無効なツール呼び出し: 1
応答時間(平均)2.89s
応答時間(最大)15.42s
応答時間(合計)43.28s
…
|
- 合計テスト数
- 19
- 誤答テスト数
- 15
- 試行ごとの合格率
- 28.6%
- 入力トークン
- 38,147
- 出力トークン
- 2,054
- 推論トークン
- 0
- 応答時間(平均)
- 2.89s
- 応答時間(合計)
- 43.28s
- 応答時間(最大)
- 15.42s
-
反AIトリック
: 3.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3 API エラー: 1
応答時間(平均)705ms
応答時間(最大)975ms
応答時間(合計)2.12s
-
コーディング
: 2.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)2.93s
応答時間(最大)2.93s
応答時間(合計)2.93s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)4.32s
応答時間(最大)4.32s
応答時間(合計)4.32s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)3.37s
応答時間(最大)5.76s
応答時間(合計)6.73s
-
ドメイン特化
: 3.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)5.50s
応答時間(最大)15.42s
応答時間(合計)16.50s
-
汎用知能
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
指示追従
: 6.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)683ms
応答時間(最大)691ms
応答時間(合計)1.37s
-
パズル解決
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 API エラー: 1
応答時間(平均)891ms
応答時間(最大)1.21s
応答時間(合計)1.78s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)7.54s
応答時間(最大)7.54s
応答時間(合計)7.54s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
|
| #154#154 |
Grok 4.20 Betanoneアーカイブ済みモデル: このモデルは今後更新されず、新しいテストでも評価されません。
|
4.7… |
X AI |
$0.087
↓
…
|
1.19s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 10 指示に従っていない: 1 無効なツール呼び出し: 1
応答時間(平均)1.19s
応答時間(最大)6.48s
応答時間(合計)21.43s
…
|
- 合計テスト数
- 18
- 誤答テスト数
- 12
- 信頼性
- 該当なしこのモデルの信頼性テレメトリは利用できません。
- 試行ごとの合格率
- 31.8%
- 入力トークン
- 40,597
- 出力トークン
- 1,657
- 推論トークン
- 0
- 応答時間(平均)
- 1.19s
- 応答時間(合計)
- 21.43s
- 応答時間(最大)
- 6.48s
-
反AIトリック
: 4.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 4
応答時間(平均)597ms
応答時間(最大)866ms
応答時間(合計)2.39s
-
コーディング
: 1.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)1.14s
応答時間(最大)1.14s
応答時間(合計)1.14s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)6.48s
応答時間(最大)6.48s
応答時間(合計)6.48s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)601ms
応答時間(最大)634ms
応答時間(合計)1.20s
-
ドメイン特化
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)611ms
応答時間(最大)616ms
応答時間(合計)1.83s
-
汎用知能
: 5.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)541ms
応答時間(最大)541ms
応答時間(合計)541ms
-
指示追従
: 6.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)649ms
応答時間(最大)952ms
応答時間(合計)1.30s
-
パズル解決
: 7.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)586ms
応答時間(最大)813ms
応答時間(合計)1.76s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)4.79s
応答時間(最大)4.79s
応答時間(合計)4.79s
-
雑学
: 0.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
|
| #153#153 |
Qwen3 Coder Nextmedium
|
4.7… |
Qwen |
$0.008
↓
…
|
8.58s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 13 指示に従っていない: 3 タイムアウト: 1
応答時間(平均)8.58s
応答時間(最大)81.80s
応答時間(合計)128.68s
…
|
- 合計テスト数
- 21
- 誤答テスト数
- 17
- 試行ごとの合格率
- 28.6%
- 入力トークン
- 47,250
- 出力トークン
- 3,319
- 推論トークン
- 0
- 応答時間(平均)
- 8.58s
- 応答時間(合計)
- 128.68s
- 応答時間(最大)
- 81.80s
-
反AIトリック
: 3.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3 指示に従っていない: 1
応答時間(平均)8.64s
応答時間(最大)15.28s
応答時間(合計)17.29s
-
コーディング
: 3.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 タイムアウト: 1
応答時間(平均)924ms
応答時間(最大)1.69s
応答時間(合計)2.77s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)4.28s
応答時間(最大)4.28s
応答時間(合計)4.28s
-
データ解析と抽出
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)81.80s
応答時間(最大)81.80s
応答時間(合計)81.80s
-
ドメイン特化
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)638ms
応答時間(最大)638ms
応答時間(合計)638ms
-
汎用知能
: 6.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)1.39s
応答時間(最大)1.39s
応答時間(合計)1.39s
-
指示追従
: 6.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)7.49s
応答時間(最大)13.67s
応答時間(合計)14.99s
-
パズル解決
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 指示に従っていない: 1
応答時間(平均)1.25s
応答時間(最大)1.68s
応答時間(合計)2.49s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)2.64s
応答時間(最大)2.64s
応答時間(合計)2.64s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)399ms
応答時間(最大)399ms
応答時間(合計)399ms
|
| #152#152 |
Ling-2.6-1Tnone
|
4.7… |
Inclusionai |
$0.005
↕
…
|
7.72s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 12 API エラー: 3 指示に従っていない: 2 無効なツール呼び出し: 1
応答時間(平均)7.72s
応答時間(最大)25.72s
応答時間(合計)139.00s
…
|
- 合計テスト数
- 21
- 誤答テスト数
- 18
- 信頼性
- 該当なしこのモデルの信頼性テレメトリは利用できません。
- 試行ごとの合格率
- 14.3%
- 入力トークン
- 34,905
- 出力トークン
- 2,434
- 推論トークン
- 0
- 応答時間(平均)
- 7.72s
- 応答時間(合計)
- 139.00s
- 応答時間(最大)
- 25.72s
-
反AIトリック
: 3.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 4
応答時間(平均)6.55s
応答時間(最大)9.41s
応答時間(合計)26.19s
-
コーディング
: 3.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 2 不正解: 1
応答時間(平均)10.57s
応答時間(最大)10.57s
応答時間(合計)10.57s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)23.53s
応答時間(最大)23.53s
応答時間(合計)23.53s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)1.37s
応答時間(最大)1.37s
応答時間(合計)2.73s
-
ドメイン特化
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)1.04s
応答時間(最大)1.08s
応答時間(合計)3.11s
-
汎用知能
: 5.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)20.34s
応答時間(最大)20.34s
応答時間(合計)20.34s
-
指示追従
: 6.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)5.36s
応答時間(最大)9.81s
応答時間(合計)10.73s
-
パズル解決
: 3.1
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 指示に従っていない: 1
応答時間(平均)5.36s
応答時間(最大)13.26s
応答時間(合計)16.09s
-
ツール呼び出し
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)25.72s
応答時間(最大)25.72s
応答時間(合計)25.72s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
|
| #151#151 |
MiniMax M2.5medium
|
4.7… |
Minimax |
$0.164
↓
…
|
65.37s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 7 タイムアウト: 4 指示に従っていない: 3 無効なツール呼び出し: 1 回答なし: 1
応答時間(平均)65.37s
応答時間(最大)251.36s
応答時間(合計)849.76s
…
|
- 合計テスト数
- 21
- 誤答テスト数
- 16
- 試行ごとの合格率
- 46.0%
- 入力トークン
- 43,706
- 出力トークン
- 109,495
- 推論トークン
- 330,814
- 応答時間(平均)
- 65.37s
- 応答時間(合計)
- 849.76s
- 応答時間(最大)
- 251.36s
-
反AIトリック
: 7.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 タイムアウト: 1
応答時間(平均)20.82s
応答時間(最大)32.42s
応答時間(合計)41.63s
-
コーディング
: 3.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
回答なし: 1 タイムアウト: 1 不正解: 1
応答時間(平均)188.58s
応答時間(最大)251.36s
応答時間(合計)377.16s
-
複合
: 4.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)60.39s
応答時間(最大)60.39s
応答時間(合計)60.39s
-
データ解析と抽出
: 4.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)7.48s
応答時間(最大)7.48s
応答時間(合計)7.48s
-
ドメイン特化
: 2.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 タイムアウト: 1
応答時間(平均)237.27s
応答時間(最大)237.27s
応答時間(合計)237.27s
-
汎用知能
: 3.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)6.63s
応答時間(最大)6.63s
応答時間(合計)6.63s
-
指示追従
: 7.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)621ms
応答時間(最大)621ms
応答時間(合計)621ms
-
パズル解決
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
タイムアウト: 1 不正解: 1
応答時間(平均)11.21s
応答時間(最大)17.37s
応答時間(合計)22.43s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)15.35s
応答時間(最大)15.35s
応答時間(合計)15.35s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)80.79s
応答時間(最大)80.79s
応答時間(合計)80.79s
|
| #150#150 |
GPT-5.4 Nanonone
|
4.8… |
OpenAI |
$0.011
…
|
1.48s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 15 指示に従っていない: 2
応答時間(平均)1.48s
応答時間(最大)4.47s
応答時間(合計)31.01s
…
|
- 合計テスト数
- 21
- 誤答テスト数
- 17
- 試行ごとの合格率
- 30.2%
- 入力トークン
- 34,212
- 出力トークン
- 2,784
- 推論トークン
- 0
- 応答時間(平均)
- 1.48s
- 応答時間(合計)
- 31.01s
- 応答時間(最大)
- 4.47s
-
反AIトリック
: 3.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 4
応答時間(平均)1.18s
応答時間(最大)1.81s
応答時間(合計)4.70s
-
コーディング
: 4.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)2.22s
応答時間(最大)4.47s
応答時間(合計)6.65s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)3.84s
応答時間(最大)3.84s
応答時間(合計)3.84s
-
データ解析と抽出
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)1.11s
応答時間(最大)1.25s
応答時間(合計)2.23s
-
ドメイン特化
: 2.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)926ms
応答時間(最大)959ms
応答時間(合計)2.78s
-
汎用知能
: 3.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)1.31s
応答時間(最大)1.31s
応答時間(合計)1.31s
-
指示追従
: 6.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)784ms
応答時間(最大)859ms
応答時間(合計)1.57s
-
パズル解決
: 5.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)1.25s
応答時間(最大)1.53s
応答時間(合計)3.76s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)3.40s
応答時間(最大)3.40s
応答時間(合計)3.40s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)773ms
応答時間(最大)773ms
応答時間(合計)773ms
|
| #149#149 |
Ring-2.6-1Tnone
|
4.8… |
Inclusionai |
$0.026
↕
…
|
55.10s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 5 不正解: 5 指示に従っていない: 2
応答時間(平均)55.10s
応答時間(最大)143.82s
応答時間(合計)881.55s
…
|
- 合計テスト数
- 21
- 誤答テスト数
- 12
- 試行ごとの合格率
- 47.6%
- 入力トークン
- 7,599
- 出力トークン
- 39,954
- 推論トークン
- 0
- 応答時間(平均)
- 55.10s
- 応答時間(合計)
- 881.55s
- 応答時間(最大)
- 143.82s
-
反AIトリック
: 9.2
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)43.33s
応答時間(最大)71.76s
応答時間(合計)173.31s
-
コーディング
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 2
応答時間(平均)143.82s
応答時間(最大)143.82s
応答時間(合計)143.82s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
データ解析と抽出
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1 不正解: 1
応答時間(平均)45.87s
応答時間(最大)45.87s
応答時間(合計)45.87s
-
ドメイン特化
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2
応答時間(平均)73.40s
応答時間(最大)90.09s
応答時間(合計)220.20s
-
汎用知能
: 4.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)15.63s
応答時間(最大)15.63s
応答時間(合計)15.63s
-
指示追従
: 9.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)27.36s
応答時間(最大)40.24s
応答時間(合計)54.72s
-
パズル解決
: 7.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)31.47s
応答時間(最大)46.84s
応答時間(合計)94.41s
-
ツール呼び出し
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1
応答時間(平均)0ms
応答時間(最大)0ms
応答時間(合計)0ms
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)133.60s
応答時間(最大)133.60s
応答時間(合計)133.60s
|
| #148#148 |
Ling-2.6-flashnone
|
4.9… |
Inclusionai |
$0.001
↑
…
|
9.34s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 9 API エラー: 2 指示に従っていない: 2 無効なツール呼び出し: 2
応答時間(平均)9.34s
応答時間(最大)35.34s
応答時間(合計)177.48s
…
|
- 合計テスト数
- 21
- 誤答テスト数
- 15
- 試行ごとの合格率
- 31.8%
- 入力トークン
- 40,718
- 出力トークン
- 2,878
- 推論トークン
- 0
- 応答時間(平均)
- 9.34s
- 応答時間(合計)
- 177.48s
- 応答時間(最大)
- 35.34s
-
反AIトリック
: 6.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)11.81s
応答時間(最大)16.60s
応答時間(合計)47.23s
-
コーディング
: 5.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 2
応答時間(平均)11.21s
応答時間(最大)11.21s
応答時間(合計)11.21s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)35.34s
応答時間(最大)35.34s
応答時間(合計)35.34s
-
データ解析と抽出
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)8.48s
応答時間(最大)12.71s
応答時間(合計)16.96s
-
ドメイン特化
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)4.95s
応答時間(最大)7.65s
応答時間(合計)14.84s
-
汎用知能
: 4.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)1.45s
応答時間(最大)1.45s
応答時間(合計)1.45s
-
指示追従
: 9.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)5.52s
応答時間(最大)8.19s
応答時間(合計)11.04s
-
パズル解決
: 2.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 指示に従っていない: 1
応答時間(平均)6.51s
応答時間(最大)17.06s
応答時間(合計)19.54s
-
ツール呼び出し
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)18.80s
応答時間(最大)18.80s
応答時間(合計)18.80s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)1.06s
応答時間(最大)1.06s
応答時間(合計)1.06s
|
| #147#147 |
Nemotron 3 Supernone
|
4.9… |
NVIDIA |
$0.006
↑
…
|
5.30s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 14 指示に従っていない: 2
応答時間(平均)5.30s
応答時間(最大)16.45s
応答時間(合計)111.31s
…
|
- 合計テスト数
- 21
- 誤答テスト数
- 16
- 試行ごとの合格率
- 31.8%
- 入力トークン
- 36,456
- 出力トークン
- 6,195
- 推論トークン
- 0
- 応答時間(平均)
- 5.30s
- 応答時間(合計)
- 111.31s
- 応答時間(最大)
- 16.45s
-
反AIトリック
: 4.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)4.46s
応答時間(最大)9.94s
応答時間(合計)17.83s
-
コーディング
: 3.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)2.64s
応答時間(最大)3.05s
応答時間(合計)7.92s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)16.45s
応答時間(最大)16.45s
応答時間(合計)16.45s
-
データ解析と抽出
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)7.92s
応答時間(最大)13.23s
応答時間(合計)15.84s
-
ドメイン特化
: 3.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)6.23s
応答時間(最大)14.38s
応答時間(合計)18.70s
-
汎用知能
: 4.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)950ms
応答時間(最大)950ms
応答時間(合計)950ms
-
指示追従
: 6.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)804ms
応答時間(最大)921ms
応答時間(合計)1.61s
-
パズル解決
: 5.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)2.36s
応答時間(最大)3.27s
応答時間(合計)7.07s
-
ツール呼び出し
: 4.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)16.00s
応答時間(最大)16.00s
応答時間(合計)16.00s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)8.94s
応答時間(最大)8.94s
応答時間(合計)8.94s
|
| #146#146 |
GLM 4.7 Flashnone
|
4.9… |
Z.ai |
$0.004
…
|
2.86s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 13 指示に従っていない: 1 無効なツール呼び出し: 1
応答時間(平均)2.86s
応答時間(最大)7.05s
応答時間(合計)40.04s
…
|
- 合計テスト数
- 21
- 誤答テスト数
- 15
- 試行ごとの合格率
- 36.5%
- 入力トークン
- 38,745
- 出力トークン
- 2,521
- 推論トークン
- 0
- 応答時間(平均)
- 2.86s
- 応答時間(合計)
- 40.04s
- 応答時間(最大)
- 7.05s
-
反AIトリック
: 5.2
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)5.51s
応答時間(最大)6.59s
応答時間(合計)11.02s
-
コーディング
: 4.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)2.54s
応答時間(最大)5.57s
応答時間(合計)7.62s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)3.22s
応答時間(最大)3.22s
応答時間(合計)3.22s
-
データ解析と抽出
: 7.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)4.82s
応答時間(最大)4.82s
応答時間(合計)4.82s
-
ドメイン特化
: 7.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)744ms
応答時間(最大)744ms
応答時間(合計)744ms
-
汎用知能
: 4.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)1.59s
応答時間(最大)1.59s
応答時間(合計)1.59s
-
指示追従
: 6.5
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)888ms
応答時間(最大)888ms
応答時間(合計)888ms
-
パズル解決
: 6.4
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1 不正解: 1
応答時間(平均)1.20s
応答時間(最大)1.27s
応答時間(合計)2.39s
-
ツール呼び出し
: 2.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)7.05s
応答時間(最大)7.05s
応答時間(合計)7.05s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)692ms
応答時間(最大)692ms
応答時間(合計)692ms
|
| #145#145 |
Cobuddymedium
|
4.9… |
Baidu |
$0.000
…
|
39.90s… |
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 9 指示に従っていない: 3 API エラー: 1 無効なツール呼び出し: 1
応答時間(平均)39.90s
応答時間(最大)309.02s
応答時間(合計)797.98s
…
|
- 合計テスト数
- 21
- 誤答テスト数
- 14
- 試行ごとの合格率
- 47.6%
- 入力トークン
- 37,449
- 出力トークン
- 1,677
- 推論トークン
- 116,703
- 応答時間(平均)
- 39.90s
- 応答時間(合計)
- 797.98s
- 応答時間(最大)
- 309.02s
-
反AIトリック
: 8.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)10.00s
応答時間(最大)11.53s
応答時間(合計)39.99s
-
コーディング
: 3.7
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
API エラー: 1 指示に従っていない: 1 不正解: 1
応答時間(平均)79.17s
応答時間(最大)104.76s
応答時間(合計)158.35s
-
複合
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
無効なツール呼び出し: 1
応答時間(平均)47.38s
応答時間(最大)47.38s
応答時間(合計)47.38s
-
データ解析と抽出
: 6.3
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)17.36s
応答時間(最大)26.57s
応答時間(合計)34.71s
-
ドメイン特化
: 2.9
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 3
応答時間(平均)128.15s
応答時間(最大)309.02s
応答時間(合計)384.46s
-
汎用知能
: 4.2
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
指示に従っていない: 1
応答時間(平均)23.23s
応答時間(最大)23.23s
応答時間(合計)23.23s
-
指示追従
: 9.8
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)11.60s
応答時間(最大)14.49s
応答時間(合計)23.20s
-
パズル解決
: 3.6
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 2 指示に従っていない: 1
応答時間(平均)12.83s
応答時間(最大)24.40s
応答時間(合計)38.49s
-
ツール呼び出し
: 10.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
失敗した回答はありません。
応答時間(平均)11.19s
応答時間(最大)11.19s
応答時間(合計)11.19s
-
雑学
: 3.0
テストは、その全実行が合格した場合にのみ完全合格とみなされます。
不正解: 1
応答時間(平均)36.98s
応答時間(最大)36.98s
応答時間(合計)36.98s
|