AI Benchy リーダーボード

Name: AI BENCHY モデルベンチマーク結果
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-07-24 評価済みモデル数: 222

222/222

順位	モデル	スコア	企業	合計コスト	応答時間（平均）
#1🥇 #1	Gemini 3.6 Flashmedium	9.9	Google	$0.831	10.11s
モデルカードを見る合計テスト数 22 誤答テスト数 1 信頼性 10.0 試行ごとの合格率 98.5% 不安定なテスト 1 入力トークン 66,293 出力トークン 2,000 推論トークン 95,464 応答時間（平均） 10.11s 応答時間（合計） 222.33s 応答時間（最大） 68.03s 不正解: 1 反AIトリック : 10.0 コーディング : 10.0 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 8.2 汎用知能 : 10.0 指示追従 : 9.9 パズル解決 : 10.0 ツール呼び出し : 10.0 雑学 : 10.0
#2🥈 #2	Gemini 3.6 Flashhigh	9.7	Google	$1.785	14.88s
モデルカードを見る合計テスト数 22 誤答テスト数 1 信頼性 10.0 試行ごとの合格率 98.5% 不安定なテスト 1 入力トークン 87,819 出力トークン 5,750 推論トークン 214,596 応答時間（平均） 14.88s 応答時間（合計） 327.37s 応答時間（最大） 88.00s 不正解: 1 反AIトリック : 10.0 コーディング : 10.0 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 10.0 汎用知能 : 10.0 指示追従 : 9.9 パズル解決 : 10.0 ツール呼び出し : 10.0 雑学 : 4.7
#3🥉 #3	Gemini 3 Flash Previewmedium	9.6	Google	$0.742	19.20s
モデルカードを見る合計テスト数 22 誤答テスト数 1 信頼性 10.0 試行ごとの合格率 98.5% 不安定なテスト 1 入力トークン 87,861 出力トークン 5,486 推論トークン 227,164 応答時間（平均） 19.20s 応答時間（合計） 422.42s 応答時間（最大） 117.26s 不正解: 1 反AIトリック : 10.0 コーディング : 8.6 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 10.0 汎用知能 : 10.0 指示追従 : 10.0 パズル解決 : 10.0 ツール呼び出し : 10.0 雑学 : 10.0
#4#4	Gemini 3.5 Flashhigh	9.5	Google	$1.976	15.07s
モデルカードを見る合計テスト数 22 誤答テスト数 2 信頼性 10.0 試行ごとの合格率 93.9% 不安定なテスト 2 入力トークン 107,137 出力トークン 8,777 推論トークン 192,900 応答時間（平均） 15.07s 応答時間（合計） 331.48s 応答時間（最大） 145.92s 無効なツール呼び出し: 1 不正解: 1 反AIトリック : 10.0 コーディング : 10.0 複合 : 8.2 データ解析と抽出 : 10.0 ドメイン特化 : 7.6 汎用知能 : 10.0 指示追従 : 10.0 パズル解決 : 10.0 ツール呼び出し : 9.8 雑学 : 10.0
#5#5	GPT-5.6 Sollow	9.5	OpenAI	$0.971	8.79s
モデルカードを見る合計テスト数 22 誤答テスト数 4 信頼性 10.0 試行ごとの合格率 86.4% 不安定なテスト 2 入力トークン 78,571 出力トークン 4,476 推論トークン 14,770 応答時間（平均） 8.79s 応答時間（合計） 193.33s 応答時間（最大） 53.91s 不正解: 4 反AIトリック : 8.3 コーディング : 10.0 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 10.0 指示追従 : 10.0 パズル解決 : 8.2 ツール呼び出し : 10.0 雑学 : 10.0
#6#6	Gemini 3.6 Flashlow	9.4	Google	$0.517	4.42s
モデルカードを見る合計テスト数 22 誤答テスト数 1 信頼性 10.0 試行ごとの合格率 97.0% 不安定なテスト 1 入力トークン 82,715 出力トークン 5,729 推論トークン 46,633 応答時間（平均） 4.42s 応答時間（合計） 97.13s 応答時間（最大） 28.92s 不正解: 1 反AIトリック : 10.0 コーディング : 7.8 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 10.0 汎用知能 : 10.0 指示追従 : 10.0 パズル解決 : 10.0 ツール呼び出し : 10.0 雑学 : 10.0
#7#7	GPT-5.6 Solmedium	9.4	OpenAI	$1.316	11.35s
モデルカードを見る合計テスト数 22 誤答テスト数 4 信頼性 10.0 試行ごとの合格率 90.9% 不安定なテスト 3 入力トークン 78,997 出力トークン 4,696 推論トークン 26,002 応答時間（平均） 11.35s 応答時間（合計） 249.73s 応答時間（最大） 79.40s 不正解: 4 反AIトリック : 10.0 コーディング : 10.0 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.9 汎用知能 : 10.0 指示追従 : 10.0 パズル解決 : 8.2 ツール呼び出し : 10.0 雑学 : 4.7
#8#8	GPT-5.6 Solhigh	9.4	OpenAI	$1.234	11.73s
モデルカードを見る合計テスト数 22 誤答テスト数 4 信頼性 10.0 試行ごとの合格率 89.4% 不安定なテスト 3 入力トークン 79,249 出力トークン 4,855 推論トークン 23,044 応答時間（平均） 11.73s 応答時間（合計） 257.99s 応答時間（最大） 54.79s 不正解: 4 反AIトリック : 8.7 コーディング : 10.0 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 10.0 指示追従 : 10.0 パズル解決 : 10.0 ツール呼び出し : 10.0 雑学 : 4.7
#9#9	GPT-5.5low	9.3	OpenAI	$1.253	10.13s
モデルカードを見る合計テスト数 22 誤答テスト数 3 信頼性 10.0 試行ごとの合格率 86.4% 不安定なテスト 0 入力トークン 80,058 出力トークン 5,378 推論トークン 23,040 応答時間（平均） 10.13s 応答時間（合計） 222.82s 応答時間（最大） 56.19s 不正解: 3 反AIトリック : 10.0 コーディング : 10.0 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 10.0 指示追従 : 9.9 パズル解決 : 10.0 ツール呼び出し : 10.0 雑学 : 3.0
#10#10	Gemini 3.1 Pro Previewmedium	9.2	Google	$1.361	21.47s
モデルカードを見る合計テスト数 22 誤答テスト数 2 信頼性 10.0 試行ごとの合格率 90.9% 不安定なテスト 0 入力トークン 92,287 出力トークン 5,232 推論トークン 92,726 応答時間（平均） 21.47s 応答時間（合計） 322.08s 応答時間（最大） 88.68s 不正解: 2 反AIトリック : 10.0 コーディング : 7.9 複合 : 9.8 データ解析と抽出 : 10.0 ドメイン特化 : 7.7 汎用知能 : 10.0 指示追従 : 10.0 パズル解決 : 10.0 ツール呼び出し : 10.0 雑学 : 10.0
#11#11	Qwen3.7 Maxmedium	9.2	Qwen	$1.116 ↓	40.57s
モデルカードを見る合計テスト数 22 誤答テスト数 4 信頼性 10.0 試行ごとの合格率 87.9% 不安定なテスト 2 入力トークン 106,020 出力トークン 5,748 推論トークン 211,004 応答時間（平均） 40.57s 応答時間（合計） 892.57s 応答時間（最大） 556.06s 不正解: 3 無効なツール呼び出し: 1 反AIトリック : 10.0 コーディング : 10.0 複合 : 8.7 データ解析と抽出 : 10.0 ドメイン特化 : 5.9 汎用知能 : 10.0 指示追従 : 10.0 パズル解決 : 10.0 ツール呼び出し : 10.0 雑学 : 3.0
#12#12	Gemini 3.5 Flashmedium	9.1	Google	$0.642	8.20s
モデルカードを見る合計テスト数 22 誤答テスト数 3 信頼性 10.0 試行ごとの合格率 87.9% 不安定なテスト 1 入力トークン 69,747 出力トークン 2,166 推論トークン 57,436 応答時間（平均） 8.20s 応答時間（合計） 180.47s 応答時間（最大） 76.68s 不正解: 2 指示に従っていない: 1 反AIトリック : 10.0 コーディング : 7.9 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 7.7 汎用知能 : 10.0 指示追従 : 9.9 パズル解決 : 7.7 ツール呼び出し : 10.0 雑学 : 10.0
#13#13	GPT-5.5medium	9.0	OpenAI	$4.137	38.42s
モデルカードを見る合計テスト数 22 誤答テスト数 4 信頼性 10.0 試行ごとの合格率 87.9% 不安定なテスト 3 入力トークン 80,659 出力トークン 5,617 推論トークン 118,819 応答時間（平均） 38.42s 応答時間（合計） 845.35s 応答時間（最大） 332.10s 不正解: 4 反AIトリック : 10.0 コーディング : 8.8 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 10.0 指示追従 : 10.0 パズル解決 : 10.0 ツール呼び出し : 10.0 雑学 : 2.8
#14#14	Gemini 3.5 Flashlow	8.9	Google	$0.433	5.55s
モデルカードを見る合計テスト数 22 誤答テスト数 3 信頼性 10.0 試行ごとの合格率 87.9% 不安定なテスト 1 入力トークン 87,817 出力トークン 2,239 推論トークン 31,182 応答時間（平均） 5.55s 応答時間（合計） 122.19s 応答時間（最大） 53.55s 不正解: 2 無効なツール呼び出し: 1 反AIトリック : 10.0 コーディング : 7.8 複合 : 8.2 データ解析と抽出 : 10.0 ドメイン特化 : 7.7 汎用知能 : 10.0 指示追従 : 9.9 パズル解決 : 10.0 ツール呼び出し : 10.0 雑学 : 10.0
#15#15	Grok 4.5high	8.9	X AI	$1.707	76.50s
モデルカードを見る合計テスト数 22 誤答テスト数 5 信頼性 10.0 試行ごとの合格率 83.3% 不安定なテスト 2 入力トークン 151,562 出力トークン 5,655 推論トークン 247,540 応答時間（平均） 76.50s 応答時間（合計） 1683.07s 応答時間（最大） 676.83s 回答なし: 2 不正解: 2 指示に従っていない: 1 反AIトリック : 10.0 コーディング : 10.0 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 3.6 汎用知能 : 4.7 指示追従 : 9.8 パズル解決 : 10.0 ツール呼び出し : 10.0 雑学 : 3.0
#16#16	GPT-5.3-Codexmedium	8.9	OpenAI	$0.920	16.96s
モデルカードを見る合計テスト数 22 誤答テスト数 6 信頼性 10.0 試行ごとの合格率 83.3% 不安定なテスト 4 入力トークン 81,268 出力トークン 6,251 推論トークン 49,274 応答時間（平均） 16.96s 応答時間（合計） 373.19s 応答時間（最大） 100.93s 不正解: 4 指示に従っていない: 2 反AIトリック : 8.7 コーディング : 10.0 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.9 汎用知能 : 4.6 指示追従 : 10.0 パズル解決 : 9.0 ツール呼び出し : 10.0 雑学 : 2.8
#17#17	Claude Opus 4.8medium	8.8	Anthropic	$1.931	12.49s
モデルカードを見る合計テスト数 22 誤答テスト数 4 信頼性 10.0 試行ごとの合格率 84.9% 不安定なテスト 1 入力トークン 138,451 出力トークン 40,766 推論トークン 9,075 応答時間（平均） 12.49s 応答時間（合計） 274.72s 応答時間（最大） 70.54s 不正解: 3 回答なし: 1 反AIトリック : 10.0 コーディング : 10.0 複合 : 9.9 データ解析と抽出 : 7.1 ドメイン特化 : 5.3 汎用知能 : 10.0 指示追従 : 10.0 パズル解決 : 10.0 ツール呼び出し : 10.0 雑学 : 3.0
#18#18	Claude Opus 4.7medium	8.7	Anthropic	$1.477	7.61s
モデルカードを見る合計テスト数 22 誤答テスト数 4 信頼性 10.0 試行ごとの合格率 83.3% 不安定なテスト 1 入力トークン 145,252 出力トークン 24,948 推論トークン 5,042 応答時間（平均） 7.61s 応答時間（合計） 159.91s 応答時間（最大） 65.40s 不正解: 3 タイムアウト: 1 反AIトリック : 8.3 コーディング : 7.6 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 7.7 汎用知能 : 10.0 指示追従 : 10.0 パズル解決 : 10.0 ツール呼び出し : 10.0 雑学 : 3.0
#19#19	Muse Spark 1.1medium	8.6	Meta	$1.357	24.97s
モデルカードを見る合計テスト数 22 誤答テスト数 7 信頼性 10.0 試行ごとの合格率 72.7% 不安定なテスト 2 入力トークン 142,567 出力トークン 7,905 推論トークン 269,225 応答時間（平均） 24.97s 応答時間（合計） 549.31s 応答時間（最大） 165.38s 不正解: 4 指示に従っていない: 2 無効なツール呼び出し: 1 反AIトリック : 10.0 コーディング : 10.0 複合 : 8.3 データ解析と抽出 : 10.0 ドメイン特化 : 3.5 汎用知能 : 10.0 指示追従 : 6.5 パズル解決 : 7.9 ツール呼び出し : 9.8 雑学 : 3.0
#20#20	Claude Fable 5medium	8.6	Anthropic	$3.478	17.20s
モデルカードを見る合計テスト数 22 誤答テスト数 5 信頼性 10.0 試行ごとの合格率 78.8% 不安定なテスト 1 入力トークン 89,643 出力トークン 41,360 推論トークン 10,269 応答時間（平均） 17.20s 応答時間（合計） 378.41s 応答時間（最大） 80.80s 回答なし: 2 不正解: 2 無効なツール呼び出し: 1 反AIトリック : 10.0 コーディング : 10.0 複合 : 6.5 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 10.0 指示追従 : 10.0 パズル解決 : 7.7 ツール呼び出し : 10.0 雑学 : 3.0
#21#21	GPT-5.4medium	8.5	OpenAI	$1.533	23.10s
モデルカードを見る合計テスト数 22 誤答テスト数 7 信頼性 10.0 試行ごとの合格率 77.3% 不安定なテスト 4 入力トークン 81,127 出力トークン 6,155 推論トークン 82,515 応答時間（平均） 23.10s 応答時間（合計） 508.26s 応答時間（最大） 100.41s 不正解: 5 指示に従っていない: 2 反AIトリック : 8.3 コーディング : 8.8 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 4.7 指示追従 : 10.0 パズル解決 : 8.2 ツール呼び出し : 10.0 雑学 : 3.0
#23#23	Grok 4.5low	8.4	X AI	$0.935	15.56s
モデルカードを見る合計テスト数 22 誤答テスト数 6 信頼性 10.0 試行ごとの合格率 75.8% 不安定なテスト 1 入力トークン 125,596 出力トークン 7,505 推論トークン 106,446 応答時間（平均） 15.56s 応答時間（合計） 342.32s 応答時間（最大） 205.28s 不正解: 6 反AIトリック : 10.0 コーディング : 10.0 複合 : 6.5 データ解析と抽出 : 10.0 ドメイン特化 : 3.0 汎用知能 : 6.1 指示追従 : 9.8 パズル解決 : 10.0 ツール呼び出し : 10.0 雑学 : 3.0
#24#24	GPT-5.2medium	8.4	OpenAI	$0.951	22.62s
モデルカードを見る合計テスト数 22 誤答テスト数 8 信頼性 10.0 試行ごとの合格率 72.7% 不安定なテスト 4 入力トークン 105,004 出力トークン 9,914 推論トークン 44,868 応答時間（平均） 22.62s 応答時間（合計） 339.28s 応答時間（最大） 102.93s 指示に従っていない: 3 不正解: 3 回答なし: 1 タイムアウト: 1 反AIトリック : 6.5 コーディング : 10.0 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.9 汎用知能 : 3.7 指示追従 : 9.9 パズル解決 : 7.5 ツール呼び出し : 4.7 雑学 : 3.0
#25#25	Grok 4.5medium	8.3	X AI	$1.928	61.71s
モデルカードを見る合計テスト数 22 誤答テスト数 6 信頼性 10.0 試行ごとの合格率 78.8% 不安定なテスト 3 入力トークン 122,146 出力トークン 5,514 推論トークン 275,053 応答時間（平均） 61.71s 応答時間（合計） 1357.56s 応答時間（最大） 436.38s 不正解: 6 反AIトリック : 10.0 コーディング : 7.6 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 2.9 汎用知能 : 6.5 指示追従 : 9.8 パズル解決 : 10.0 ツール呼び出し : 10.0 雑学 : 3.0
#26#26	Claude Sonnet 5medium	8.3	Anthropic	$0.922	12.52s
モデルカードを見る合計テスト数 22 誤答テスト数 6 信頼性 10.0 試行ごとの合格率 80.3% 不安定なテスト 3 入力トークン 145,956 出力トークン 52,333 推論トークン 10,874 応答時間（平均） 12.52s 応答時間（合計） 275.42s 応答時間（最大） 66.71s 不正解: 4 指示に従っていない: 1 無効なツール呼び出し: 1 反AIトリック : 10.0 コーディング : 9.0 複合 : 7.3 データ解析と抽出 : 10.0 ドメイン特化 : 7.7 汎用知能 : 4.8 指示追従 : 9.9 パズル解決 : 7.7 ツール呼び出し : 10.0 雑学 : 3.0
#27#27	Muse Spark 1.1low	8.3	Meta	$0.647	11.45s
モデルカードを見る合計テスト数 22 誤答テスト数 9 信頼性 10.0 試行ごとの合格率 69.7% 不安定なテスト 4 入力トークン 142,298 出力トークン 10,847 推論トークン 99,467 応答時間（平均） 11.45s 応答時間（合計） 251.92s 応答時間（最大） 54.15s 不正解: 6 指示に従っていない: 2 無効なツール呼び出し: 1 反AIトリック : 7.9 コーディング : 10.0 複合 : 6.6 データ解析と抽出 : 10.0 ドメイン特化 : 2.9 汎用知能 : 10.0 指示追従 : 7.3 パズル解決 : 8.3 ツール呼び出し : 9.8 雑学 : 3.0
#28#28	Gemini 2.5 Flashmedium	8.2	Google	$0.643	21.18s
モデルカードを見る合計テスト数 22 誤答テスト数 7 信頼性 10.0 試行ごとの合格率 71.2% 不安定なテスト 1 入力トークン 132,498 出力トークン 12,739 推論トークン 228,464 応答時間（平均） 21.18s 応答時間（合計） 465.89s 応答時間（最大） 140.50s 不正解: 6 指示に従っていない: 1 反AIトリック : 8.4 コーディング : 7.8 複合 : 10.0 データ解析と抽出 : 10.0 ドメイン特化 : 5.9 汎用知能 : 4.8 指示追従 : 9.8 パズル解決 : 7.7 ツール呼び出し : 10.0 雑学 : 3.0
#29#29	GPT-5 Minimedium	8.1	OpenAI	$0.237	27.63s
モデルカードを見る合計テスト数 22 誤答テスト数 10 信頼性 10.0 試行ごとの合格率 63.6% 不安定なテスト 3 入力トークン 98,374 出力トークン 14,434 推論トークン 91,498 応答時間（平均） 27.63s 応答時間（合計） 607.92s 応答時間（最大） 111.48s 不正解: 5 指示に従っていない: 3 回答なし: 1 タイムアウト: 1 反AIトリック : 7.1 コーディング : 10.0 複合 : 7.3 データ解析と抽出 : 10.0 ドメイン特化 : 3.6 汎用知能 : 4.5 指示追従 : 10.0 パズル解決 : 5.6 ツール呼び出し : 10.0 雑学 : 3.0
#30#30	Muse Spark 1.1high	8.1	Meta	$1.694	31.49s
モデルカードを見る合計テスト数 22 誤答テスト数 10 信頼性 10.0 試行ごとの合格率 69.7% 不安定なテスト 6 入力トークン 129,423 出力トークン 8,077 推論トークン 352,421 応答時間（平均） 31.49s 応答時間（合計） 661.28s 応答時間（最大） 196.03s 不正解: 4 指示に従っていない: 2 無効なツール呼び出し: 2 API エラー: 1 回答なし: 1 反AIトリック : 7.5 コーディング : 10.0 複合 : 5.9 データ解析と抽出 : 10.0 ドメイン特化 : 3.5 汎用知能 : 10.0 指示追従 : 6.4 パズル解決 : 7.8 ツール呼び出し : 9.6 雑学 : 3.0
#31#31	Gemini 3.5 Flash-Litehigh	8.1	Google	$0.584	9.48s
モデルカードを見る合計テスト数 22 誤答テスト数 8 信頼性 10.0 試行ごとの合格率 81.8% 不安定なテスト 7 入力トークン 105,138 出力トークン 8,315 推論トークン 212,507 応答時間（平均） 9.48s 応答時間（合計） 208.52s 応答時間（最大） 43.93s 不正解: 6 指示に従っていない: 1 回答なし: 1 反AIトリック : 10.0 コーディング : 8.6 複合 : 7.3 データ解析と抽出 : 10.0 ドメイン特化 : 5.3 汎用知能 : 5.4 指示追従 : 8.5 パズル解決 : 8.2 ツール呼び出し : 10.0 雑学 : 2.8

クイック比較

Gemini 3.6 FlashmediumvsGemini 3.6 Flashhigh Gemini 3.6 FlashhighvsGemini 3 Flash Previewmedium Gemini 3 Flash PreviewmediumvsGemini 3.5 Flashhigh Gemini 3.5 FlashhighvsGPT-5.6 Sollow GPT-5.6 SollowvsGemini 3.6 Flashlow Gemini 3.6 FlashlowvsGPT-5.6 Solmedium GPT-5.6 SolmediumvsGPT-5.6 Solhigh GPT-5.6 SolhighvsGPT-5.5low GPT-5.5lowvsGemini 3.1 Pro Previewmedium Gemini 3.1 Pro PreviewmediumvsQwen3.7 Maxmedium Qwen3.7 MaxmediumvsGemini 3.5 Flashmedium Gemini 3.5 FlashmediumvsGPT-5.5medium

AI Benchy リーダーボード

モデルを絞り込む

クイック比較