はじめに

最近は忙しくて、全然ブログを更新してませんでした。久しぶりの更新です。

多クラス分類のロジスティック回帰のお勉強ログです。

過去に2クラス分類のロジスティック回帰の記事を書きましたが、その拡張版です。

それにしても、過去の記事を読み返してみると、つくづく文章が下手だなと思ってしまいます。

冗長的な表現が多く、自分で読み返してもよくわからない箇所が多いなと。。

今回は必要なことのみを箇条書きで書くようにしてみました。

モデルの概要

特徴量ベクトル $\mathbf{x} = [x_{1}, \cdots, x_{m}$ ] から、多クラス分類を実施するロジスティック回帰を考えていきます。
ロジスティック回帰の出力がクラス数 ${c}$ 個に分類される場合を想定し、以下のようなモデルを考えます。

$\underset{(1 \times c)}{\mathbf{z}} = \underset{(1 \times m)}{\mathbf{x}}\underset{(m \times c)}{\mathbf{W}} + \underset{(1 \times c)}{\mathbf{b}} \tag{1}$

$\underset{(1 \times c)}{\mathbf{\phi}} = f(\underset{(1 \times c)}{\mathbf{z}}) \tag{2}$

$L = g(\underset{(1 \times c)}{\mathbf{\phi}}) \tag{3}$

$\mathbf{W},~\mathbf{b}$ は重みと閾値を表し、多クラスの場合は重みは行列、閾値はベクトルとなります。
行列やベクトルの下に書いてある ${()}$ の中には、わかりやすいように次数を表記しておきました。
$f$ が活性化関数、 $g$ が損失関数、 $L$ が損失値を表しています。
多クラス分類の場合は、活性化関数にソフトマックス関数、損失関数に交差エントロピーを用います。

One-hot表現

多クラス分類では、教師データとしてOne-hot表現のベクトルを用います。
One-hot表現とは、成分の一つだけが1でその他は0であるベクトルで表現する方法です。
例えばクラスラベルが $c$ 個ある分類では、以下のように表現してやります。
- クラスラベルが1のものは $[\underbrace{1,~0,\cdots,~0}_{c個}$ ]
- クラスラベルが2のものは $[\underbrace{0,~1,\cdots,~0}_{c個}$ ]
$~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\vdots$
- クラスラベルがcのものは $[\underbrace{0,~0,\cdots,~1}_{c個}$ ]

ソフトマックス関数

ソフトマックス関数の入力を $\mathbf{z}=[z_1,\cdots,z_c$ ] 、出力を $\mathbf{\phi}=[\varphi_1,\cdots,\varphi_c$ ] としたとき、ソフトマックス関数は以下のように定義されます。

$\mathbf{\epsilon}=[\underbrace{1,~1,\cdots,~1}_{c個}$ ] として、ベクトル演算で無理やり書くと、

$\displaystyle \mathbf{\phi} = \frac{1}{e^{\mathbf{z}}\mathbf{\epsilon}^T}e^{\mathbf{z}} \tag{5}$

このソフトマックス関数の出力の各成分は、全部足すと1になっており、それぞれの成分 $\varphi_i$ は、クラスラベルが $i$ である確率を表していると考えます。
例えば、クラス数が3の場合、ソフトマックス関数の出力が $[0.2, ~0.7, ~0.1$ ] であったとしましょう。これが意味することは、クラスラベルが1である確率が20%、クラスラベルが2である確率が70%、クラスラベルが3である確率が10%であり、つまりクラスラベルが2である確率が一番高いという事になります。
教師データのOne-hot表現についても同様に考えることができます。
例えば $[1,~0,\cdots,~0$ ] という教師データがあったときは、クラスラベルが1である確率が100%で、その他のクラスラベルについては0%という意味です。

ソフトマックス関数の微分

(4)式の $\varphi_j$ を $z_i$ で微分することを考えます。 $A=\displaystyle \sum^{c}_{i=1}{e^{z_i}}$ とおくと、
$j\neq i$ の時、

$j=i$ の時、

クロネッカーのデルタ $\delta_{ij}$ を使って一本の式に書くと、

行列形式で並べて書いたらどうなるのかな？( $i$ を縦に $j$ を横に並べてみます。)

う〜ん。これ以上まとめられない。。

交差エントロピー

クラスラベルが $k$ である教師データ $\mathbf{y}_{class=k}$ をOne-hot表現で表すと、 $k$ 番目の要素が1でそれ以外が0のベクトルとして表せます。

一つの特徴量ベクトル $\mathbf{x}$ からそのクラスラベルの確率ベクトル $\mathbf{\phi}=[\varphi_1,\cdots,\varphi_c$ ] が与えられた時、クラスラベルが $k$ である条件付確率 $p(\mathbf{y}=\mathbf{y}_{class=k}|\phi)$ は、

これをクラスラベルがどの場合でもいいように、 $\mathbf{y}=[y_1,\cdots,y_c$ ] を使ってより一般的に表すと、以下のように書くことができます。多クラスの場合のベルヌーイ分布ですね。

更にここから、この確率 $p(\mathbf{y}|\mathbf{\phi})$ の確からしさを表す尤度を計算したいのですが、尤度を計算するためには、いくつかデータサンプルが必要なので、更にインデックスを増やす形になります。
データサンプルのインデックスを $i$ とし $n$ 個のデータサンプルがあるとします。
(12)式にデータサンプルのインデックスを追加してやります。