Pythonと機械学習

Pythonも機械学習も初心者ですが、頑張ってこのブログで勉強してこうと思います。

多層パーセプトロン

機械学習深層学習

目次

目次
はじめに
3層パーセプトロン
多層パーセプトロン

はじめに

前回実装した多クラスロジスティック回帰を拡張して、今度は多層パーセプトロンを実装してみたいと思います。
ようやくディープラーニングの領域に入ってきました。今回でやっとバックプロパゲーションが理解できたので履歴を残しておきます。
バックプロパゲーションですが、計算式を書いてるとテンソルのインデックスが多すぎて途中で訳が分からなくなってくるので、始めは難しいと感じていましたが、分かってしまえば偏微分のチェーンルールをいじくってるだけでした。

3層パーセプトロン

何層でもいけるようなものを実装しようと思ってますが、まずは3層で考えていきます。
$n \times c^{(1)}$ の特徴量行列 $\mathbf{\Phi}^{(1)}$ を入力とし、中間層の出力を $n \times c^{(2)}$ の行列 $\mathbf{\Phi}^{(2)}$ 、最終出力を $n \times c^{(3)}$ の行列 $\mathbf{\Phi}^{(3)}$ であらわします。

層のインデックスがわかるように、右上に()書きしています。
$n$ がサンプル数、 $c^{(1)}$ が特徴量数、 $c^{(3)}$ がクラス数になります。
全結合と活性化関数の行列演算は以下の様になります。

$f^{(1)}$ は中間層の活性化関数でシグモイド関数。 $f^{(2)}$ はソフトマックス関数とします。
損失関数は交差エントロピーとします。

損失関数の重み勾配

損失関数を重みと閾値の関数 $L(\mathbf{W}^{(1)},\mathbf{b}^{(1)},\mathbf{W}^{(2)},\mathbf{b}^{(2)})$ とみて、それぞれの微分を求めておきます。
いきなり行列で考えると訳が分からなくなるので要素で考え、後で行列形式に直します。(小文字で要素を表します。)
先ずは、 $\frac{\partial L}{\partial w^{(1)}_{jl}}$

$\frac{\partial L}{\partial b^{(1)}_{l}}$ 。(6)式と同じように考えて、

$\frac{\partial L}{\partial w^{(2)}_{jl}}$ 。以下同様に、

$\frac{\partial L}{\partial b^{(2)}_{l}}$ 。

$\frac{\partial L}{\partial z^{(1)}_{il}} \frac{\partial L}{\partial z^{(2)}_{il}}$ をこれ以上展開しないのがポイントです。後でバックプロパゲーションで一気に求めます。

バックプロパゲーション

(6)、(7)、(8)、(9)式において $\frac{\partial L}{\partial z^{(2)}_{il}},\frac{\partial L}{\partial z^{(1)}_{il}}$ が求まれば、損失関数の重み・閾値の勾配は一気に求まるので、それぞれ求めていきましょう。
先ずは下準備として $\frac{\partial L}{\partial z^{(2)}_{il}}$ の下準備として、 $\frac{\partial L}{\partial \varphi^{(3)}_{il}}$ を先に求めておきます。

$\frac{\partial L}{\partial z^{(2)}_{il}}$ を求めてみます。

次に $\frac{\partial L}{\partial z^{(1)}_{il}}$ を求めます。

(12)式の $f^{(1)’}(z^{(1)}_{il})$ は、シグモイド関数の微分なので、

(11)式より $\frac{\partial L}{\partial z^{(2)}_{il}}$ が求まり、(12)、(13)式より $\frac{\partial L}{\partial z^{(1)}_{il}}$ が求まり...というのを繰り返すと、(6)、(7)、(8)、(9)式より重み勾配を逐次的に求めることができます。これがバックプロパゲーションです。

行列表記

numpyで書きやすいように行列表記しておきます。求める順番に書いていきます。
$\frac{\partial L}{\partial \mathbf{Z}^{(2)}}$ 。(11)式の $i$ を縦、 $l$ を横に並べます。

$\frac{\partial L}{\partial \mathbf{Z}^{(2)}}$ が求まったので、 $\frac{\partial L}{\partial \mathbf{W}^{(2)}}, \frac{\partial L}{\partial \mathbf{b}^{(2)}}$ が求まります。
$\frac{\partial L}{\partial \mathbf{W}^{(2)}}$ 。(8)式の $j$ を縦、 $l$ を横に並べます。

$\frac{\partial L}{\partial \mathbf{b}^{(2)}}$ 。同様に(9)式より、

(11)式の $\frac{\partial L}{\partial \mathbf{Z}^{(2)}}$ より、 (12)式の $\frac{\partial L}{\partial \mathbf{Z}^{(1)}}$ が求まります。(12)式の $i$ を縦、 $l$ を横に並べます。

$f^{(1)}$ がシグモイド関数とすると(13)式より、

(17)、(18)式の $\circ$ は、アダマール積を表しており、行列の同じ成分同士を掛け算する記号です。要するにnp.arrayの積です。
(18)式の $\mathbf{1}$ は、全要素が1の行列です。
$\frac{\partial L}{\partial \mathbf{Z}^{(1)}}$ が求まったので $\frac{\partial L}{\partial \mathbf{W}^{(1)}}$ が求まります。(6)式の $j$ を縦に並べ、 $l$ を横に並べます。

同様に $\frac{\partial L}{\partial \mathbf{b}^{(1)}}$ です。(7)式の $j$ を縦に並べ、 $l$ を横に並べます。

多層パーセプトロン

3層パーセプトロンを一般的な $\Lambda$ 層に発展させてみましょう。

順伝播

$n$ :サンプル数。 $c^{(1)}$ :特徴量数。 $c^{(\lambda)}$ :中間層のユニット数。 $c^{(\Lambda)}$ :クラス数。 $\mathbf{X}$ :特徴量行列。 $\mathbf{Y}$ :目標値(教師データ)行列とします。

全結合

活性化関数

損失関数(交差エントロピー)

逆伝播

以下 $\mathbf{\Delta}^{(\lambda)}\equiv\frac{\partial L}{\partial \mathbf{Z}^{(\lambda)}}$ として記述します。

誤差計算

(14)式より、

バックプロパゲーション

(17)式より、

損失関数の重み・閾値勾配

(19)、(20)式より、

$\lambda$ が $1$ になるまで(25)～(27)式の操作を繰り返します。
(24)式の誤差 $\mathbf{\Delta}^{(\Lambda-1)}$ が(25)式の様に、各層を逐次的に逆伝播していくので誤差逆伝播というわけです。
全ての重み・閾値の勾配が求まったら、学習率をかけて重み・閾値をアップデートします。

追記

(25)式ですが以下のようにも展開することができます。

(25)式と(26)式を比べてみると、以下のような関係になっている事が分かります。

(27)式の $\lambda+1$ を $\lambda$ にして、再度(26)式に代入し $\mathbf{\Delta}^{(\lambda)}$ を消去すると、 $\frac{\partial L}{\partial \mathbf{\Phi}^{(\lambda)}}$ に関してのバックプロパゲーションの式が得られます。