AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs Google: Gemini 3.5 Flash

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-05-22

指標	Claude Sonnet 4.6 Claude Sonnet 4.6 medium リリース: 2026-02-17	Gemini 3.5 Flash Gemini 3.5 Flash high リリース: 2026-05-19

指標	Claude Sonnet 4.6 Claude Sonnet 4.6 medium リリース: 2026-02-17	Gemini 3.5 Flash Gemini 3.5 Flash high リリース: 2026-05-19
スコア	7.6	9.6
順位	#47	#2
信頼性	10.0	10.0
一貫性	9.2	9.6
正解テスト
試行ごとの合格率	68.3%	96.7%
不安定なテスト	2	1
総実行回数	60	60
結果あたりのコスト	10.227	5.231
合計コスト	$1.330	$0.994
????	$3.000 / 1M	$1.500 / 1M
????	$15.000 / 1M	$9.000 / 1M
出力トークン	49,888	1,969
推論トークン	29,554	102,679
応答時間（平均）	15.72s	8.30s
応答時間（最大）	46.35s	34.82s
応答時間（合計）	188.69s	165.92s

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Sonnet 4.6	6.5	10.0	50.0%	0		2.98s	1,046	1,093
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.57s	174	4,997

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Sonnet 4.6	6.9	6.0	66.7%	1		33.87s	11,277	3,281
Gemini 3.5 Flash	10.0	10.0	100.0%	0		24.62s	450	34,170

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	5,871	3,962
Gemini 3.5 Flash	10.0	10.0	100.0%	0		22.37s	351	16,323

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Sonnet 4.6	10.0	10.0	100.0%	0		13.90s	649	742
Gemini 3.5 Flash	10.0	10.0	100.0%	0		6.43s	279	8,466

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Sonnet 4.6	2.9	7.2	11.1%	1		0ms	25,790	16,919
Gemini 3.5 Flash	7.6	7.2	77.8%	1		14.09s	12	24,721

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	256	433
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.63s	115	1,650

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	318	552
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.35s	70	3,799

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.80s	589	635
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.23s	241	4,940

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	655	351
Gemini 3.5 Flash	9.8	10.0	100.0%	0		4.96s	265	1,608

雑学	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Sonnet 4.6	3.0	10.0	0.0%	0		30.09s	3,437	1,586
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.94s	12	2,005

クイック比較

比較ペアを切り替え

Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Litelow Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsDeepSeek V4 Flashhigh無料で利用可能 Claude Sonnet 4.6mediumvsRing-2.6-1Tnone Claude Sonnet 4.6mediumvsQwen3.7 Maxnone Claude Sonnet 4.6mediumvsGemini 3.5 Flashminimal Claude Sonnet 4.6mediumvsQwen3.6 Max Previewnone Gemini 3.5 FlashhighvsQwen3.7 Maxmedium