前回はロジスティック回帰モデルを紹介し、その負の対数尤度関数まで求めました。 今回はここからロジスティック回帰の学習手順を導きます。 確率的勾配降下法の復習 「学習」というとなにやら高尚で複雑な響きがありますが、機械学習が実際にやっているのは、適当なモデルを決めて「一番良い」パラメータを選ぶことでした。 何を「一番良い」とするかは難しいところですが、機械学習の多くのモデルでは「誤差が最も小さい」あるいは「尤度(観測された事象の確率)が最も大きい」といった指標で「一番良い」を選びます。つまり「関数を最小(または最大)とするwを求める」ところに落とし込まれるわけです。 この「関数の最小化」を「最適化」と呼びますが、これは一般にはとても困難な問題です。1次元空間上の話なら中学や高校の数学で解けますが、機械学習の問題の多くがそうであるように、何万次元もの高次元空間上で厳密解を求めるのは不可能に近い