AI Benchy リーダーボード

Name: AI BENCHY モデルベンチマーク結果
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-07-24 評価済みモデル数: 222

222/222

順位	モデル	スコア	企業	合計コスト	応答時間（平均）
#34#34	GPT-5.2 Chatnone	8.0	OpenAI	$0.604	7.65s
モデルカードを見る合計テスト数 22 誤答テスト数 8 信頼性 10.0 試行ごとの合格率 74.2% 不安定なテスト 4 入力トークン 101,248 出力トークン 30,424 推論トークン 0 応答時間（平均） 7.65s 応答時間（合計） 168.39s 応答時間（最大） 38.52s 不正解: 6 指示に従っていない: 1 回答なし: 1 反AIトリック : 8.7 コーディング : 8.8 複合 : 7.3 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 4.4 指示追従 : 9.8 パズル解決 : 7.7 ツール呼び出し : 10.0 雑学 : 3.0
#35#35	GLM 5.2high	8.0	Z.ai	$0.800 ↓	62.65s
モデルカードを見る合計テスト数 22 誤答テスト数 8 信頼性 10.0 試行ごとの合格率 71.2% 不安定なテスト 3 入力トークン 83,813 出力トークン 69,688 推論トークン 225,659 応答時間（平均） 62.65s 応答時間（合計） 1378.34s 応答時間（最大） 599.43s タイムアウト: 3 不正解: 3 指示に従っていない: 1 回答なし: 1 反AIトリック : 10.0 コーディング : 6.4 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.7 汎用知能 : 10.0 指示追従 : 10.0 パズル解決 : 6.0 ツール呼び出し : 10.0 雑学 : 3.0
#38#38	GPT-5.6 Terrahigh	8.0	OpenAI	$1.055	11.32s
モデルカードを見る合計テスト数 22 誤答テスト数 8 信頼性 10.0 試行ごとの合格率 68.2% 不安定なテスト 2 入力トークン 81,047 出力トークン 5,055 推論トークン 51,736 応答時間（平均） 11.32s 応答時間（合計） 249.14s 応答時間（最大） 91.49s 不正解: 7 無効なツール呼び出し: 1 反AIトリック : 8.3 コーディング : 7.6 複合 : 8.7 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 5.1 指示追従 : 10.0 パズル解決 : 7.7 ツール呼び出し : 10.0 雑学 : 3.0
#39#39	Seed-2.0-Litemedium	7.9	Bytedance Seed	$0.234	48.53s
モデルカードを見る合計テスト数 22 誤答テスト数 8 信頼性 10.0 試行ごとの合格率 74.2% 不安定なテスト 4 入力トークン 129,897 出力トークン 12,533 推論トークン 88,047 応答時間（平均） 48.53s 応答時間（合計） 1067.74s 応答時間（最大） 254.92s 不正解: 5 指示に従っていない: 2 回答なし: 1 反AIトリック : 8.3 コーディング : 8.0 複合 : 6.4 データ解析と抽出 : 10.0 ドメイン特化 : 5.9 汎用知能 : 6.7 指示追従 : 10.0 パズル解決 : 9.0 ツール呼び出し : 10.0 雑学 : 3.0
#40#40	Qwen3.7 Plusmedium	7.9	Qwen	$0.267 ↓	51.51s
モデルカードを見る合計テスト数 22 誤答テスト数 7 信頼性 10.0 試行ごとの合格率 75.8% 不安定なテスト 3 入力トークン 115,233 出力トークン 6,162 推論トークン 173,267 応答時間（平均） 51.51s 応答時間（合計） 1133.15s 応答時間（最大） 315.30s 不正解: 5 無効なツール呼び出し: 1 タイムアウト: 1 反AIトリック : 10.0 コーディング : 6.1 複合 : 8.2 データ解析と抽出 : 10.0 ドメイン特化 : 3.6 汎用知能 : 10.0 指示追従 : 10.0 パズル解決 : 10.0 ツール呼び出し : 10.0 雑学 : 3.0
#41#41	Qwen3.6 Plusmedium	7.8	Qwen	$0.405 ↑	43.12s
モデルカードを見る合計テスト数 22 誤答テスト数 7 信頼性 10.0 試行ごとの合格率 71.2% 不安定なテスト 2 入力トークン 97,689 出力トークン 6,412 推論トークン 184,825 応答時間（平均） 43.12s 応答時間（合計） 905.53s 応答時間（最大） 291.55s 不正解: 5 API エラー: 1 指示に従っていない: 1 反AIトリック : 10.0 コーディング : 6.1 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 2.9 汎用知能 : 5.1 指示追従 : 10.0 パズル解決 : 10.0 ツール呼び出し : 10.0 雑学 : 3.0
#43#43	GPT-5.6 Terramedium	7.8	OpenAI	$0.676	7.11s
モデルカードを見る合計テスト数 22 誤答テスト数 8 信頼性 10.0 試行ごとの合格率 69.7% 不安定なテスト 2 入力トークン 79,175 出力トークン 4,878 推論トークン 26,952 応答時間（平均） 7.11s 応答時間（合計） 156.42s 応答時間（最大） 41.68s 不正解: 8 反AIトリック : 8.3 コーディング : 6.1 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 5.5 指示追従 : 10.0 パズル解決 : 8.4 ツール呼び出し : 10.0 雑学 : 3.0
#44#44	Claude Sonnet 4.6medium	7.8	Anthropic	$2.057	25.91s
モデルカードを見る合計テスト数 22 誤答テスト数 8 信頼性 10.0 試行ごとの合格率 66.7% 不安定なテスト 2 入力トークン 106,292 出力トークン 80,748 推論トークン 35,117 応答時間（平均） 25.91s 応答時間（合計） 362.78s 応答時間（最大） 140.96s 不正解: 4 余分な書式: 3 タイムアウト: 1 反AIトリック : 6.5 コーディング : 5.7 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 2.9 汎用知能 : 10.0 指示追従 : 10.0 パズル解決 : 10.0 ツール呼び出し : 10.0 雑学 : 3.0
#45#45	Claude Opus 4.8low	7.8	Anthropic	$2.077	12.74s
モデルカードを見る合計テスト数 22 誤答テスト数 6 信頼性 10.0 試行ごとの合格率 80.3% 不安定なテスト 3 入力トークン 156,525 出力トークン 43,141 推論トークン 8,617 応答時間（平均） 12.74s 応答時間（合計） 280.29s 応答時間（最大） 127.97s 不正解: 4 余分な書式: 1 回答なし: 1 反AIトリック : 10.0 コーディング : 6.6 複合 : 9.9 データ解析と抽出 : 6.3 ドメイン特化 : 5.3 汎用知能 : 10.0 指示追従 : 9.8 パズル解決 : 10.0 ツール呼び出し : 10.0 雑学 : 3.0
#46#46	GLM 5medium	7.7	Z.ai	$0.307 ↑	33.54s
モデルカードを見る合計テスト数 21 誤答テスト数 6 信頼性 10.0 試行ごとの合格率 78.8% 不安定なテスト 4 入力トークン 35,224 出力トークン 21,570 推論トークン 102,996 応答時間（平均） 33.54s 応答時間（合計） 435.99s 応答時間（最大） 99.85s 不正解: 3 指示に従っていない: 1 回答なし: 1 タイムアウト: 1 反AIトリック : 10.0 コーディング : 10.0 複合 : 5.0 データ解析と抽出 : 7.1 ドメイン特化 : 3.5 汎用知能 : 6.1 指示追従 : 10.0 パズル解決 : 10.0 ツール呼び出し : 10.0 雑学 : 3.0
#47#47	Claude Opus 4.6medium	7.7	Anthropic	$3.059	34.27s
モデルカードを見る合計テスト数 22 誤答テスト数 9 信頼性 10.0 試行ごとの合格率 63.6% 不安定なテスト 3 入力トークン 108,615 出力トークン 72,286 推論トークン 28,315 応答時間（平均） 34.27s 応答時間（合計） 513.99s 応答時間（最大） 151.51s 余分な書式: 5 不正解: 3 指示に従っていない: 1 反AIトリック : 6.4 コーディング : 5.7 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.0 汎用知能 : 10.0 指示追従 : 10.0 パズル解決 : 7.7 ツール呼び出し : 10.0 雑学 : 3.0
#48#48	GPT-5.6 Lunahigh	7.7	OpenAI	$1.017	18.68s
モデルカードを見る合計テスト数 22 誤答テスト数 7 信頼性 10.0 試行ごとの合格率 72.7% 不安定なテスト 3 入力トークン 80,918 出力トークン 5,088 推論トークン 150,910 応答時間（平均） 18.68s 応答時間（合計） 411.05s 応答時間（最大） 111.09s 不正解: 7 反AIトリック : 8.3 コーディング : 5.5 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 7.7 汎用知能 : 5.0 指示追従 : 9.9 パズル解決 : 7.6 ツール呼び出し : 10.0 雑学 : 3.0
#49#49	DeepSeek V4 Flashhigh	7.7	DeepSeek	$0.042 ↓	49.75s
モデルカードを見る合計テスト数 22 誤答テスト数 9 信頼性 10.0 試行ごとの合格率 72.7% 不安定なテスト 5 入力トークン 108,392 出力トークン 14,478 推論トークン 153,687 応答時間（平均） 49.75s 応答時間（合計） 1094.41s 応答時間（最大） 218.13s 不正解: 6 指示に従っていない: 2 無効なツール呼び出し: 1 反AIトリック : 8.3 コーディング : 7.8 複合 : 6.4 データ解析と抽出 : 10.0 ドメイン特化 : 4.1 汎用知能 : 6.1 指示追従 : 10.0 パズル解決 : 8.2 ツール呼び出し : 10.0 雑学 : 3.0
#50#50	DeepSeek V4 Prohigh	7.7	DeepSeek	$0.200	79.14s
モデルカードを見る合計テスト数 22 誤答テスト数 12 信頼性 10.0 試行ごとの合格率 63.6% 不安定なテスト 6 入力トークン 90,748 出力トークン 10,462 推論トークン 178,719 応答時間（平均） 79.14s 応答時間（合計） 1740.97s 応答時間（最大） 416.76s 不正解: 6 指示に従っていない: 2 API エラー: 1 余分な書式: 1 回答なし: 1 タイムアウト: 1 反AIトリック : 5.7 コーディング : 6.3 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.6 汎用知能 : 10.0 指示追従 : 7.8 パズル解決 : 6.9 ツール呼び出し : 9.8 雑学 : 3.0
#52#52	Grok Build 0.1medium	7.6	X AI	$1.097	52.06s
モデルカードを見る合計テスト数 22 誤答テスト数 8 信頼性 10.0 試行ごとの合格率 63.6% 不安定なテスト 0 入力トークン 106,751 出力トークン 7,993 推論トークン 486,670 応答時間（平均） 52.06s 応答時間（合計） 1145.27s 応答時間（最大） 252.69s 不正解: 5 余分な書式: 3 反AIトリック : 8.3 コーディング : 5.7 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 4.4 指示追従 : 9.8 パズル解決 : 7.7 ツール呼び出し : 10.0 雑学 : 3.0
#53#53	GLM 5 Turbomedium	7.6	Z.ai	$0.323 ↑	23.00s
モデルカードを見る合計テスト数 21 誤答テスト数 7 信頼性 10.0 試行ごとの合格率 71.2% 不安定なテスト 4 入力トークン 35,593 出力トークン 12,245 推論トークン 62,277 応答時間（平均） 23.00s 応答時間（合計） 482.97s 応答時間（最大） 194.23s 不正解: 4 指示に従っていない: 1 回答なし: 1 タイムアウト: 1 反AIトリック : 10.0 コーディング : 8.2 複合 : 5.0 データ解析と抽出 : 10.0 ドメイン特化 : 2.9 汎用知能 : 6.1 指示追従 : 10.0 パズル解決 : 8.7 ツール呼び出し : 10.0 雑学 : 3.0
#54#54	GPT-5.6 Lunamedium	7.6	OpenAI	$0.352	7.28s
モデルカードを見る合計テスト数 22 誤答テスト数 8 信頼性 10.0 試行ごとの合格率 65.2% 不安定なテスト 1 入力トークン 89,676 出力トークン 5,699 推論トークン 37,980 応答時間（平均） 7.28s 応答時間（合計） 160.27s 応答時間（最大） 29.85s 不正解: 8 反AIトリック : 8.3 コーディング : 5.4 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 5.1 指示追従 : 9.9 パズル解決 : 7.8 ツール呼び出し : 10.0 雑学 : 3.0
#56#56	Kimi K2.7 Codemedium	7.5	Moonshot AI	$0.740 ↓	84.25s
モデルカードを見る合計テスト数 22 誤答テスト数 10 信頼性 10.0 試行ごとの合格率 65.2% 不安定なテスト 4 入力トークン 72,073 出力トークン 83,714 推論トークン 178,793 応答時間（平均） 84.25s 応答時間（合計） 1769.22s 応答時間（最大） 365.80s 不正解: 5 タイムアウト: 3 API エラー: 1 指示に従っていない: 1 反AIトリック : 7.3 コーディング : 7.8 複合 : 7.3 データ解析と抽出 : 10.0 ドメイン特化 : 5.5 汎用知能 : 10.0 指示追従 : 9.9 パズル解決 : 5.9 ツール呼び出し : 3.0 雑学 : 3.0
#57#57	GPT-5.4 Nanomedium	7.5	OpenAI	$0.138	13.24s
モデルカードを見る合計テスト数 22 誤答テスト数 10 信頼性 10.0 試行ごとの合格率 65.2% 不安定なテスト 4 入力トークン 82,819 出力トークン 7,100 推論トークン 90,022 応答時間（平均） 13.24s 応答時間（合計） 291.33s 応答時間（最大） 94.06s 不正解: 8 指示に従っていない: 2 反AIトリック : 8.3 コーディング : 6.1 複合 : 9.9 データ解析と抽出 : 10.0 ドメイン特化 : 5.9 汎用知能 : 4.5 指示追従 : 9.8 パズル解決 : 4.1 ツール呼び出し : 10.0 雑学 : 3.0
#58#58	GPT-5.3 Chatnone	7.5	OpenAI	$0.571	6.88s
モデルカードを見る合計テスト数 22 誤答テスト数 9 信頼性 10.0 試行ごとの合格率 68.2% 不安定なテスト 5 入力トークン 78,990 出力トークン 30,854 推論トークン 0 応答時間（平均） 6.88s 応答時間（合計） 151.31s 応答時間（最大） 18.33s 不正解: 7 指示に従っていない: 2 反AIトリック : 6.7 コーディング : 5.6 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.5 汎用知能 : 4.6 指示追従 : 9.8 パズル解決 : 10.0 ツール呼び出し : 10.0 雑学 : 3.0
#59#59	GPT-5.6 Terralow	7.5	OpenAI	$0.519	5.31s
モデルカードを見る合計テスト数 22 誤答テスト数 9 信頼性 10.0 試行ごとの合格率 74.2% 不安定なテスト 6 入力トークン 80,295 出力トークン 4,714 推論トークン 16,469 応答時間（平均） 5.31s 応答時間（合計） 116.82s 応答時間（最大） 19.85s 不正解: 8 無効なツール呼び出し: 1 反AIトリック : 8.3 コーディング : 6.6 複合 : 8.7 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 4.8 指示追従 : 10.0 パズル解決 : 10.0 ツール呼び出し : 4.7 雑学 : 3.0
#60#60	GPT-5.4 Minimedium	7.5	OpenAI	$0.756	25.94s
モデルカードを見る合計テスト数 22 誤答テスト数 10 信頼性 10.0 試行ごとの合格率 71.2% 不安定なテスト 6 入力トークン 97,155 出力トークン 6,211 推論トークン 145,544 応答時間（平均） 25.94s 応答時間（合計） 570.66s 応答時間（最大） 138.75s 不正解: 6 指示に従っていない: 3 無効なツール呼び出し: 1 反AIトリック : 8.6 コーディング : 8.4 複合 : 6.9 データ解析と抽出 : 10.0 ドメイン特化 : 4.1 汎用知能 : 4.5 指示追従 : 9.8 パズル解決 : 7.8 ツール呼び出し : 4.7 雑学 : 3.0
#61#61	Qwen3.5 Plus 2026-02-15medium	7.5	Qwen	$0.437 ↓	89.19s
モデルカードを見る合計テスト数 22 誤答テスト数 8 信頼性 10.0 試行ごとの合格率 71.2% 不安定なテスト 4 入力トークン 113,560 出力トークン 9,823 推論トークン 250,881 応答時間（平均） 89.19s 応答時間（合計） 1337.92s 応答時間（最大） 304.85s 不正解: 4 タイムアウト: 2 API エラー: 1 無効なツール呼び出し: 1 反AIトリック : 8.2 コーディング : 6.6 複合 : 6.9 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 4.7 指示追従 : 10.0 パズル解決 : 10.0 ツール呼び出し : 10.0 雑学 : 3.0
#62#62	Qwen3.5-27Bmedium	7.4	Qwen	$0.981 ↓	111.94s
モデルカードを見る合計テスト数 22 誤答テスト数 9 信頼性 10.0 試行ごとの合格率 72.7% 不安定なテスト 5 入力トークン 111,635 出力トークン 15,999 推論トークン 598,430 応答時間（平均） 111.94s 応答時間（合計） 2462.67s 応答時間（最大） 1026.43s 不正解: 4 指示に従っていない: 2 余分な書式: 1 無効なツール呼び出し: 1 タイムアウト: 1 反AIトリック : 8.7 コーディング : 6.2 複合 : 7.3 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 6.1 指示追従 : 10.0 パズル解決 : 8.2 ツール呼び出し : 10.0 雑学 : 3.0
#65#65	Gemini 3 Flash Previewlow	7.4	Google	$0.177	6.28s
モデルカードを見る合計テスト数 22 誤答テスト数 6 信頼性 10.0 試行ごとの合格率 75.8% 不安定なテスト 2 入力トークン 123,684 出力トークン 9,572 推論トークン 28,518 応答時間（平均） 6.28s 応答時間（合計） 138.06s 応答時間（最大） 17.13s 不正解: 6 反AIトリック : 10.0 コーディング : 5.8 複合 : 3.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 10.0 指示追従 : 9.9 パズル解決 : 10.0 ツール呼び出し : 10.0 雑学 : 10.0
#66#66	KAT-Coder-Pro V2.5low	7.4	Kwaipilot	$0.387	19.47s
モデルカードを見る合計テスト数 22 誤答テスト数 11 信頼性 10.0 試行ごとの合格率 69.7% 不安定なテスト 8 入力トークン 87,673 出力トークン 7,166 推論トークン 101,474 応答時間（平均） 19.47s 応答時間（合計） 428.31s 応答時間（最大） 209.15s 不正解: 10 API エラー: 1 反AIトリック : 6.9 コーディング : 7.8 複合 : 6.4 データ解析と抽出 : 10.0 ドメイン特化 : 4.1 汎用知能 : 4.1 指示追従 : 10.0 パズル解決 : 6.4 ツール呼び出し : 10.0 雑学 : 3.0
#67#67	Claude Sonnet 4.6none	7.3	Anthropic	$0.661	8.12s
モデルカードを見る合計テスト数 22 誤答テスト数 10 信頼性 10.0 試行ごとの合格率 57.6% 不安定なテスト 1 入力トークン 123,264 出力トークン 19,362 推論トークン 0 応答時間（平均） 8.12s 応答時間（合計） 121.78s 応答時間（最大） 51.18s 不正解: 5 余分な書式: 4 指示に従っていない: 1 反AIトリック : 4.8 コーディング : 5.5 複合 : 9.8 データ解析と抽出 : 10.0 ドメイン特化 : 7.7 汎用知能 : 6.1 指示追従 : 6.5 パズル解決 : 7.7 ツール呼び出し : 10.0 雑学 : 3.0
#68#68	Gemini 3.1 Flash Lite Previewmedium	7.3	Google	$0.115	4.61s
モデルカードを見る合計テスト数 22 誤答テスト数 9 信頼性 10.0 試行ごとの合格率 59.1% 不安定なテスト 0 入力トークン 117,480 出力トークン 10,589 推論トークン 46,394 応答時間（平均） 4.61s 応答時間（合計） 101.39s 応答時間（最大） 18.34s 不正解: 7 指示に従っていない: 1 無効なツール呼び出し: 1 反AIトリック : 9.1 コーディング : 5.5 複合 : 7.2 データ解析と抽出 : 10.0 ドメイン特化 : 3.0 汎用知能 : 10.0 指示追従 : 10.0 パズル解決 : 7.7 ツール呼び出し : 10.0 雑学 : 3.0
#69#69	Gemini 3.1 Flash Litemedium	7.3	Google	$0.117	4.27s
モデルカードを見る合計テスト数 22 誤答テスト数 9 信頼性 10.0 試行ごとの合格率 62.1% 不安定なテスト 2 入力トークン 104,918 出力トークン 9,168 推論トークン 51,130 応答時間（平均） 4.27s 応答時間（合計） 94.02s 応答時間（最大） 26.22s 不正解: 7 指示に従っていない: 1 無効なツール呼び出し: 1 反AIトリック : 9.1 コーディング : 5.5 複合 : 7.2 データ解析と抽出 : 10.0 ドメイン特化 : 2.9 汎用知能 : 10.0 指示追従 : 9.9 パズル解決 : 7.6 ツール呼び出し : 10.0 雑学 : 3.0
#70#70	Claude Opus 4.8none	7.3	Anthropic	$1.166	4.91s
モデルカードを見る合計テスト数 22 誤答テスト数 9 信頼性 10.0 試行ごとの合格率 63.6% 不安定なテスト 2 入力トークン 149,206 出力トークン 16,797 推論トークン 0 応答時間（平均） 4.91s 応答時間（合計） 108.03s 応答時間（最大） 35.03s 不正解: 4 余分な書式: 3 指示に従っていない: 1 回答なし: 1 反AIトリック : 6.5 コーディング : 5.5 複合 : 9.8 データ解析と抽出 : 7.3 ドメイン特化 : 5.3 汎用知能 : 10.0 指示追従 : 9.9 パズル解決 : 7.7 ツール呼び出し : 10.0 雑学 : 3.0

←

1 2 3 8

→

クイック比較

Gemini 3.6 FlashmediumvsGemini 3.6 Flashhigh Gemini 3.6 FlashhighvsGemini 3 Flash Previewmedium Gemini 3 Flash PreviewmediumvsGemini 3.5 Flashhigh Gemini 3.5 FlashhighvsGPT-5.6 Sollow GPT-5.6 SollowvsGemini 3.6 Flashlow Gemini 3.6 FlashlowvsGPT-5.6 Solmedium GPT-5.6 SolmediumvsGPT-5.6 Solhigh GPT-5.6 SolhighvsGPT-5.5low GPT-5.5lowvsGemini 3.1 Pro Previewmedium Gemini 3.1 Pro PreviewmediumvsQwen3.7 Maxmedium Qwen3.7 MaxmediumvsGemini 3.5 Flashmedium Gemini 3.5 FlashmediumvsGPT-5.5medium

AI Benchy リーダーボード

モデルを絞り込む

クイック比較