比較するチャート

言語:

❤️ Made by XCS

AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs Google: Gemini 3.1 Flash Lite Preview

比較する:

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-03-03

指標	Anthropic: Claude Sonnet 4.6 medium リリース: 2026-02-17	Google: Gemini 3.1 Flash Lite Preview none リリース: 2026-03-03
順位	#11	#10
平均スコア	7.43	7.70
一貫性	9.40	9.54
結果あたりのコスト	8.105	0.116
合計コスト	$0.811	$0.011
正解テスト
試行ごとの合格率	73.8%	69.1%
不安定なテスト	1	1
出力トークン	29,098	4,307
推論トークン	20,435	0

スコア上位モデル

スコア vs 総コスト

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	出力トークン	推論トークン
Anthropic: Claude Sonnet 4.6	7.00	10.00	66.7%	0		1,031	1,093
Google: Gemini 3.1 Flash Lite Preview	6.00	7.85	55.6%	1		1,086	0

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	出力トークン	推論トークン
Anthropic: Claude Sonnet 4.6	10.00	10.00	100.0%	0		727	907
Google: Gemini 3.1 Flash Lite Preview	9.88	10.00	100.0%	0		399	0

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	出力トークン	推論トークン
Anthropic: Claude Sonnet 4.6	1.00	7.21	11.1%	1		25,790	16,919
Google: Gemini 3.1 Flash Lite Preview	4.00	10.00	33.3%	0		568	0

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	出力トークン	推論トークン
Anthropic: Claude Sonnet 4.6	10.00	10.00	100.0%	0		316	523
Google: Gemini 3.1 Flash Lite Preview	9.00	10.00	50.0%	0		574	0

Puzzle Solving	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	出力トークン	推論トークン
Anthropic: Claude Sonnet 4.6	10.00	10.00	100.0%	0		579	642
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		898	0

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	出力トークン	推論トークン
Anthropic: Claude Sonnet 4.6	10.00	10.00	100.0%	0		655	351
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		782	0

クイック比較

比較ペアを切り替え

Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Gemini 3.1 Flash Lite PreviewnonevsGPT-5.3-Codexmedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewhigh Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewnonevsGLM 5medium Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 Flashmedium無料で利用可能 DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewnonevsGPT-5.2medium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-27Bmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-122B-A10Bmedium