ナビゲーション
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

比較対象モデル

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-04-20

指標 Kimi K2.6 Kimi K2.6 medium リリース: 2026-04-20 Kimi K2.5 Kimi K2.5 medium リリース: 2026-01-27 GLM 5 GLM 5 medium リリース: 2026-02-12 Claude Opus 4.7 Claude Opus 4.7 medium リリース: 2026-04-16
スコア 7.7 7.0 8.4 9.2
順位 #34 #46 #13 #3
一貫性 8.3 6.8 8.2 10.0
正解テスト
試行ごとの合格率 74.1% 72.2% 85.2% 88.9%
不安定なテスト 4 7 4 0
総実行回数 52 54 54 54
結果あたりのコスト 6.505 2.444 1.188 2.790
合計コスト $0.716 $0.220 $0.155 $0.447
???? $0.950 / 1M $0.440 / 1M $0.700 / 1M $5.000 / 1M
???? $4.000 / 1M $2.000 / 1M $0.140 / 1M $25.000 / 1M
出力トークン 80,576 42,176 20,163 5,375
推論トークン 179,225 84,870 58,337 1,341
応答時間(平均) 45.26s 72.43s 23.34s 3.53s
応答時間(最大) 215.85s 150.77s 79.09s 21.45s
応答時間(合計) 769.49s 796.70s 233.40s 60.03s

スコア上位モデル

スコア vs 総コスト

応答時間(平均)

スコア vs 応答時間(平均)

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Kimi K2.6 7.0 8.0 66.7% 1 11.59s 7,115 8,934
Kimi K2.5 7.3 5.8 83.3% 2 51.38s 2,789 8,880
GLM 5 10.0 10.0 100.0% 0 23.66s 480 7,056
Claude Opus 4.7 8.3 10.0 75.0% 0 1.85s 348 0
コーディング スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Kimi K2.6 10.0 10.0 100.0% 0 106.96s 3,236 18,817
Kimi K2.5 4.7 1.6 66.7% 1 150.77s 1,269 9,749
GLM 5 10.0 10.0 100.0% 0 79.09s 330 19,814
Claude Opus 4.7 10.0 10.0 100.0% 0 6.41s 1,141 257
複合 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Kimi K2.6 10.0 10.0 100.0% 0 40.96s 711 13,876
Kimi K2.5 10.0 10.0 100.0% 0 71.37s 703 3,713
GLM 5 10.0 10.0 100.0% 0 28.96s 662 3,242
Claude Opus 4.7 10.0 10.0 100.0% 0 21.45s 2,369 1,084
データ解析と抽出 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Kimi K2.6 10.0 10.0 100.0% 0 20.38s 316 11,305
Kimi K2.5 10.0 10.0 100.0% 0 49.78s 563 7,940
GLM 5 7.1 5.6 83.3% 1 8.90s 567 3,734
Claude Opus 4.7 10.0 10.0 100.0% 0 2.37s 324 0
ドメイン特化 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Kimi K2.6 5.3 7.2 44.4% 1 202.38s 47,035 98,262
Kimi K2.5 3.5 4.4 33.3% 2 137.29s 20,753 30,564
GLM 5 3.5 4.4 33.3% 2 0ms 13,176 14,137
Claude Opus 4.7 7.7 10.0 66.7% 0 1.17s 51 0
汎用知能 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Kimi K2.6 10.0 10.0 100.0% 0 17.83s 3,981 4,472
Kimi K2.5 6.5 3.4 66.7% 1 69.73s 3,815 4,262
GLM 5 6.1 3.1 66.7% 1 14.69s 2,020 2,248
Claude Opus 4.7 10.0 10.0 100.0% 0 2.87s 256 0
指示追従 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Kimi K2.6 10.0 10.0 100.0% 0 12.53s 3,977 5,269
Kimi K2.5 10.0 10.0 100.0% 0 92.47s 5,371 6,547
GLM 5 10.0 10.0 100.0% 0 7.25s 1,001 2,129
Claude Opus 4.7 10.0 10.0 100.0% 0 1.57s 114 0
パズル解決 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Kimi K2.6 5.0 5.2 44.5% 2 25.59s 14,140 17,868
Kimi K2.5 5.3 7.3 44.4% 1 45.40s 6,671 12,403
GLM 5 10.0 10.0 100.0% 0 15.64s 1,694 4,983
Claude Opus 4.7 10.0 10.0 100.0% 0 2.51s 399 0
ツール呼び出し スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Kimi K2.6 10.0 10.0 100.0% 0 10.04s 65 422
Kimi K2.5 10.0 10.0 100.0% 0 31.74s 242 812
GLM 5 10.0 10.0 100.0% 0 15.93s 233 994
Claude Opus 4.7 10.0 10.0 100.0% 0 4.17s 373 0

クイック比較

比較ペアを切り替え