AI BENCHY Compare

Qwen: Qwen3.5-35B-A3B vs xAI: Grok Build 0.1

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-05-22

指標	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium リリース: 2026-02-24	Grok Build 0.1 Grok Build 0.1 none リリース: 2026-05-21

指標	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium リリース: 2026-02-24	Grok Build 0.1 Grok Build 0.1 none リリース: 2026-05-21
スコア	7.0	6.6
順位	#70	#82
信頼性	6.7	10.0
一貫性	7.1	8.0
正解テスト
試行ごとの合格率	71.7%	60.4%
不安定なテスト	7	4
総実行回数	60	57
結果あたりのコスト	5.463	7.805
合計コスト	$0.547	$0.547
????	$0.139 / 1M	$1.000 / 1M
????	$1.000 / 1M	$2.000 / 1M
出力トークン	31,239	267,275
推論トークン	336,167	0
応答時間（平均）	69.43s	28.69s
応答時間（最大）	409.98s	138.35s
応答時間（合計）	1388.55s	459.00s

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		21.13s	798	42,652
Grok Build 0.1	8.7	7.9	91.7%	1		6.30s	11,162	0

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.5-35B-A3B	6.5	10.0	50.0%	0		244.54s	14,456	88,431
Grok Build 0.1	10.0	10.0	100.0%	0		21.41s	16,568	0

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.5-35B-A3B	4.7	1.6	66.7%	1		75.34s	775	12,485
Grok Build 0.1	0.0	0.0	0.0%	0		0ms	0	0

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.5-35B-A3B	7.3	5.9	83.3%	1		59.33s	235	19,493
Grok Build 0.1	4.7	1.6	66.7%	1		9.33s	6,359	0

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.5-35B-A3B	4.1	4.4	44.5%	2		88.34s	41	46,368
Grok Build 0.1	3.6	7.2	22.2%	1		103.71s	179,469	0

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.5-35B-A3B	2.8	1.6	33.3%	1		30.30s	20	3,753
Grok Build 0.1	4.3	10.0	0.0%	0		12.47s	6,647	0

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		24.45s	97	17,361
Grok Build 0.1	9.8	10.0	100.0%	0		7.36s	8,970	0

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.5-35B-A3B	6.4	4.4	77.8%	2		31.58s	3,589	32,206
Grok Build 0.1	6.4	7.7	55.6%	1		9.55s	14,982	0

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		4.65s	309	1,365
Grok Build 0.1	0.0	0.0	0.0%	0		0ms	0	0

雑学	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Qwen3.5-35B-A3B	3.0	10.0	0.0%	0		177.35s	10,919	72,053
Grok Build 0.1	3.0	10.0	0.0%	0		36.09s	23,118	0

クイック比較

比較ペアを切り替え

Claude Sonnet 4.6nonevsQwen3.5-35B-A3Bmedium Qwen3.6 27BmediumvsGrok Build 0.1none DeepSeek V4 ProhighvsGrok Build 0.1none Kimi K2.5mediumvsGrok Build 0.1none Gemini 3.1 Flash LiteminimalvsGrok Build 0.1none Ring-2.6-1TnonevsQwen3.5-35B-A3Bmedium GPT-5 MinimediumvsGrok Build 0.1none Gemma 4 31Bnone無料で利用可能vsQwen3.5-35B-A3Bmedium Grok Build 0.1nonevsMiMo-V2-Omnimedium Gemini 3.1 Flash LiteminimalvsQwen3.5-35B-A3Bmedium Mercury 2mediumvsGrok Build 0.1none DeepSeek V3.2mediumvsGrok Build 0.1none