汎用知能 x 不正解ランキング

汎用知能で不正解が起きやすいAIモデルを確認し、弱点を早く見つけられます。並び替え: 応答時間（平均） ↑.

表示モデル数

総失敗数

最も影響を受けたモデル

Granite 4.1 8B 1

失敗理由

指示に従っていない78 不正解59 API エラー12 タイムアウト4

カテゴリ

ドメイン特化412 反AIトリック293 コーディング252 パズル解決201 雑学168 複合68 指示追従61 汎用知能59 データ解析と抽出41 ツール呼び出し3

59/59

順位	モデル	企業	不正解件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#201	Granite 4.1 8B none	IBM Granite	1	4.0	$0.007	0/1	499ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.007 応答時間（平均） 499ms
#160	Laguna XS 2.1 none	Poolside	1	5.0	$0.008	0/1	529ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.008 応答時間（平均） 529ms
#118	Gemini 2.5 Flash none	Google	1	5.0	$0.017	0/1	615ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.017 応答時間（平均） 615ms
#197	Grok 4.20 none	X AI	1	4.8	$0.057	0/1	659ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.057 応答時間（平均） 659ms
#165	Mistral Small 4 none	Mistral	1	4.0	$0.022	0/1	729ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.022 応答時間（平均） 729ms
#151	GLM 5.1 none	Z.ai	1	5.0	$0.164	0/1	790ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.164 応答時間（平均） 790ms
#164	Inkling none	Thinkingmachines	1	5.0	$0.147	0/1	859ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.147 応答時間（平均） 859ms
#174	GPT-4o-mini none	OpenAI	1	4.0	$0.010	0/1	909ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.010 応答時間（平均） 909ms
#177	Nemotron 3 Super none	NVIDIA	1	4.6	$0.008	0/1	950ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.008 応答時間（平均） 950ms
#122	Gemini 3.1 Flash Lite none	Google	1	4.0	$0.046	0/1	992ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.046 応答時間（平均） 992ms
#159	GPT-5.6 Luna none	OpenAI	1	5.0	$0.142	0/1	1.00s
合計テスト数 1 誤答テスト数 1 合計コスト $0.142 応答時間（平均） 1.00s
#132	GPT-5.6 Terra none	OpenAI	1	5.0	$0.349	0/1	1.03s
合計テスト数 1 誤答テスト数 1 合計コスト $0.349 応答時間（平均） 1.03s
#105	Gemini 3.1 Flash Lite low	Google	1	4.0	$0.621	0/1	1.37s
合計テスト数 1 誤答テスト数 1 合計コスト $0.621 応答時間（平均） 1.37s
#178	Ling-2.6-flash none	Inclusionai	1	4.0	$0.002	0/1	1.45s
合計テスト数 1 誤答テスト数 1 合計コスト $0.002 応答時間（平均） 1.45s
#83	GPT-5.6 Sol none	OpenAI	1	6.5	$0.524	0/1	1.52s
合計テスト数 1 誤答テスト数 1 合計コスト $0.524 応答時間（平均） 1.52s

モデルを絞り込む

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

汎用知能: 不正解

モデルを絞り込む

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル