誤差逆伝播法 - 計算社会科学と自然言語処理

これまでは、ニューラルネットワークの各パラメータについての目的関数の数値微分を計算することで勾配の計算を求める方法を説明しました。

勾配ベクトルの各成分は、各層の結合重みと各ユニットのバイアスでの損失関数の微分です。

しかし、ニューラルネットワークの層数が多くなると、数値微分の計算は膨大な時間がかかるでしょう。さらに、特に入力に近い深い層のパラメータほど、計算の手間が多くなります。

ここで、パラメータの勾配の計算を効率よく行う手法である「誤差逆伝播法」について学びます。

1連鎖律¶

複数の関数によって構成される関数を合成関数と呼びます。

\begin{align} z &= t^2 \\ t &= x + y \end{align}

(1)

合成関数の微分は、「 $t$ に関する $z$ の微分 $\frac{\partial z}{\partial t}$ 」と「 $x$ に関する $t$ の微分 $\frac{\partial t}{\partial 1}$ 」の積のように、それぞれの関数の微分の積で求められます。

\frac{\partial z}{\partial x} = \frac{\partial z}{\partial t} \frac{\partial t}{\partial x}

(2)

連鎖律に対するよくある誤解

\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}

(3)

に対して、「 $du$ が消えるから当然だ」のように考えがちが、その思うのは誤りです。なぜなら、 $\frac{dy}{dx}$ 、 $\frac{dy}{du}$ 、 $\frac{du}{dx}$ はそれぞれ極限を含む定義式であり、単なる分数ではないからです

\boxed{ \frac{dy}{du}\Big|_{u = u_0} = f'(u_0) = \lim_{\Delta u \to 0} \frac{f(u_0 + \Delta u) - f(u_0)}{\Delta u} }

(4)

\boxed{ \frac{du}{dx}\Big|_{x = x_0} = g'(x_0) = \lim_{\Delta x \to 0} \frac{g(x_0 + \Delta x) - g(x_0)}{\Delta x} }

(5)

微分の定義は：

f'(x_0) = \lim_{\Delta x \to 0} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x}

(6)

これを使うと、 $y=f(u)$ , $u=g(x)$ の場合、

\frac{dy}{dx} = \lim_{\Delta x \to 0} \frac{f(g(x+\Delta x)) - f(g(x))}{\Delta x}

(7)

この極限の中で、

\Delta u = g(x+\Delta x) - g(x)

(8)

を代入して丁寧に展開すると、最終的に

\frac{dy}{dx} = f'(u) \cdot g'(x)

(9)

が導かれます。

つまり、この関係は「分数を掛けた」わけではなく、極限に関する計算によって得られるものです。

2線形変換の逆伝播の導出¶

入力データ $\mathbf{x}$ は $(N \times D)$ の行列、 $\mathbf{W}$ は $(D \times H)$ の行列、 $\mathbf{b}$ は要素数 $H$ のベクトルと考え、線形変換の計算は以下の式で表します。

\begin{aligned} \mathbf{y} &= \mathbf{x} \mathbf{W} + \mathbf{b} \\ &= \begin{pmatrix} x_{0,0} & x_{0,1} & \cdots & x_{0,D-1} \\ x_{1,0} & x_{1,1} & \cdots & x_{1,D-1} \\ \vdots & \vdots & \ddots & \vdots \\ x_{N-1,0} & x_{N-1,1} & \cdots & x_{N-1,D-1} \end{pmatrix} \begin{pmatrix} w_{0,0} & w_{0,1} & \cdots & w_{0,H-1} \\ w_{1,0} & w_{1,1} & \cdots & w_{1,H-1} \\ \vdots & \vdots & \ddots & \vdots \\ w_{D-1,0} & w_{D-1,1} & \cdots & w_{D-1,H-1} \end{pmatrix} + \begin{pmatrix} b_0 & b_1 & \cdots & b_{H-1} \end{pmatrix} \\ &= \begin{pmatrix} \sum_{d=0}^{D-1} x_{0,d} w_{d,0} + b_0 & \sum_{d=0}^{D-1} x_{0,d} w_{d,1} + b_1 & \cdots & \sum_{d=0}^{D-1} x_{0,d} w_{d,H-1} + b_{H-1} \\ \sum_{d=0}^{D-1} x_{1,d} w_{d,0} + b_0 & \sum_{d=0}^{D-1} x_{1,d} w_{d,1} + b_1 & \cdots & \sum_{d=0}^{D-1} x_{1,d} w_{d,H-1} + b_{H-1} \\ \vdots & \vdots & \ddots & \vdots \\ \sum_{d=0}^{D-1} x_{N-1,d} w_{d,0} + b_0 & \sum_{d=0}^{D-1} x_{N-1,d} w_{d,1} + b_1 & \cdots & \sum_{d=0}^{D-1} x_{N-1,d} w_{d,H-1} + b_{H-1} \end{pmatrix} \\ &= \begin{pmatrix} y_{0,0} & y_{0,1} & \cdots & y_{0,H-1} \\ y_{1,0} & y_{1,1} & \cdots & y_{1,H-1} \\ \vdots & \vdots & \ddots & \vdots \\ y_{N-1,0} & y_{N-1,1} & \cdots & y_{N-1,H-1} \end{pmatrix} \end{aligned}

(10)

ここで、「 $n$ 番目の出力データの $h$ 番目の項 $y_{n,h}$ 」は、

y_{n,h} = \sum_{d=0}^{D-1} x_{n,d} w_{d,h} + b_h

(11)

で計算できるのが分かります。

2.1重みの勾配¶

例えば、損失関数に二乗誤差

L = \frac{1}{2}||y(x)-d||^2

(12)

を選んだとき、連鎖律より、 $\frac{\partial L}{\partial w_{d,h}}$ は次の式で求められます

\frac{\partial L}{\partial w_{d,h}} = \sum_{n=0}^{N-1} \frac{\partial L}{\partial y_{n,h}} \frac{\partial y_{n,h}}{\partial w_{d,h}}

(13)

$\frac{\partial L}{\partial y_{n,h}}$ は、 $y_{n,h}$ に関する $L$ の微分です。
$\frac{\partial y_{n,h}}{\partial w_{d,h}}$ は、 $w_{d,h}$ に関する $y_{n,h}$ の微分です。

ここで、 $\frac{\partial y_{n,h}}{\partial w_{d,h}}$ は、

\begin{aligned} \frac{\partial y_{n,h}}{\partial w_{d,h}} &= \frac{\partial}{\partial w_{d,h}} \left\{ \sum_{d=0}^{D-1} x_{n,d} w_{d,h} + b_h \right\} \\ &= \frac{\partial}{\partial x_{n,d}} \Bigl\{ x_{n,0} w_{0,h} + \cdots + x_{n,d} w_{d,h} + \cdots + x_{n,D-1} w_{D-1,h} + b_h \Bigr\} \\ &= 0 + \cdots + x_{n,d} + \cdots + 0 + 0 \\ &= x_{n,d} \end{aligned}

(14)

になりますため、

\frac{\partial L}{\partial w_{d,h}} = \sum_{n=0}^{N-1} \frac{\partial L}{\partial y_{n,h}} x_{n,d}

(15)

2.2バイアスの勾配¶

同じく連鎖律より、 $\frac{\partial L}{\partial b_h}$ は次の式で求められます。

\frac{\partial L}{\partial b_h} = \sum_{n=0}^{N-1} \frac{\partial L}{\partial y_{n,h}} \frac{\partial y_{n,h}}{\partial b_h}

(16)

\begin{aligned} \frac{\partial y_{n,h}}{\partial b_h} &= \frac{\partial}{\partial w_{d,h}} \left\{ \sum_{d=0}^{D-1} x_{n,d} w_{d,h} + b_h \right\} \\ &= 0 + 1 \\ &= 1 \end{aligned}

(17)

まとめると、

\frac{\partial L}{\partial b_h} = \sum_{n=0}^{N-1} \frac{\partial L}{\partial y_{n,h}}

(18)

3ニューラルネットワークにおける誤差逆伝播法の計算例¶

連鎖律より勾配を計算する考え方をニューラルネットワークにも適用する計算例を見ましょう。

具体的には、ニューラルネットワークを構成する関数が持つパラメータについての目的関数の勾配を、順伝播で通った経路を逆向きにたどるようにして途中の関数の勾配の掛け算によって求めます。

補足

ニューラルネットワークには、活性化関数によて変換し、次の層へ伝播するといった計算の流れになりますが、逆伝播による勾配を計算できる原理は変わらないです。

ここから、手計算を通じて誤差逆伝播法の実装を理解しましよう。

入力

i_{1} = 0.05,i_{2} = 0.10

(19)

初期パラメータ

w_{1} = 0.15,w_{2} = 0.20,w_{3} = 0.25,w_{4} = 0.30

(20)

w_{5} = 0.40,w_{6} = 0.45,w_{7} = 0.50,w_{8} = 0.55

(21)

活性化関数: シグモイド関数

h(x) = \frac{1}{1 + \exp(-x)}

(22)

教師データ
$o_{1} = 0.01,o_{2} = 0.99$
(23)
目的関数は平均二乗誤差関数を用いることにします。

L = \dfrac{1}{N} \sum_{n=1}^{N} (t_{n} - y_{n})^2

(24)

3.1順伝播の流れ¶

import numpy as np
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

net_h1= (0.15)*(0.05)+(0.2)*(0.1)+0.35
print("net_h1={}".format(net_h1))

net_h1=0.3775

net_h2= (0.25)*(0.05)+(0.3)*(0.1)+0.35
print("out_h2={}".format(net_h2))

out_h2=0.39249999999999996

net_o1 = (0.4)*net_h1+(0.45)*net_h2+0.6
out_o1= sigmoid(net_o1)
print("out_o1={}".format(out_o1))
net_o2 = (0.5)*net_h1+(0.55)*net_h2+0.6
out_o2= sigmoid(net_o2)
print("out_o2={}".format(out_o2))

out_o1=0.7165932011681534
out_o2=0.7319669364891265

L_1 = 0.5 * np.square(0.01-out_o1)
L_2 = 0.5 * np.square(0.99-out_o2)
L = L_1+L_2
print("Loss={}".format(L))

Loss=0.2829275069009325

例えば、 $w_5$ の勾配を計算する際には、

誤差逆伝播法でw_5の勾配を求める — 誤差逆伝播法で $w_5$ の勾配を求める

\frac{\partial L}{\partial w_5} = \frac{\partial L}{\partial out_{o1}}\frac{\partial out_{o1}}{\partial net_{o1}}\frac{\partial net_{o1}}{\partial w_5}

(25)

$\frac{\partial L}{\partial out_{o1}}$ を計算する

L= \frac{1}{2}(target_{o_{1}}-out_{o_{1}})^2+\frac{1}{2}(target_{o_{2}}-out_{o_{2}})^2

(26)

合成関数の微分 $g(f(x))= g^{\prime}(f(x))f^{\prime}(x)$ によって

\frac{\partial L}{\partial out_{o1}}= 2*\frac{1}{2}(target_{o_{1}}-out_{o_{1}})*-1+0

(27)

d_out_o1 = -(0.01-out_o1)
print("d_out_o1={}".format(d_out_o1))

d_out_o1=0.7065932011681534

$\frac{\partial out_{o1}}{\partial net_{o1}}$ を計算する

out_{o1}= sigmod(net_{o_{1}})

(28)

Sigmoid関数の微分は $f^{\prime}(x)=f(x)(1-f(x))$ なので

\frac{\partial out_{o1}}{\partial net_{o1}}= out_{o1}(1-out_{o1})

(29)

シグモイド関数の勾配の証明

\begin{aligned} \frac{d y}{d x} &= \frac{d}{d x} \Bigl\{ \frac{1}{1 + \exp(-x)} \Bigr\} \\ &= - \frac{1}{(1 + \exp(-x))^2} \frac{d}{d x} \Bigl\{ 1 + \exp(-x) \Bigr\} \\ &= - \frac{1}{(1 + \exp(-x))^2} \Bigl( - \exp(-x) \Bigr) \\ &= \frac{\exp(-x)}{(1 + \exp(-x))^2} \\ &= \frac{1}{1 + \exp(-x)} \frac{\exp(-x)}{1 + \exp(-x)} \\ &= \frac{1}{1 + \exp(-x)} \frac{1 + \exp(-x) - 1}{1 + \exp(-x)} \\ &= \frac{1}{1 + \exp(-x)} \left( \frac{1 + \exp(-x)}{1 + \exp(-x)} - \frac{1}{1 + \exp(-x)} \right) \\ &= y (1 - y) \end{aligned}

(30)

d_net_o1 = out_o1*(1-out_o1)
print("d_net_o1={}".format(d_net_o1))

d_net_o1=0.20308738520773184

$\frac{\partial net_{o1}}{\partial w_5}$ を計算する

net_{o_{1}}=w_{5}*net_{h_{1}}+w_{6}*net_{h_{2}}+b_{2}*1

(31)

\frac{\partial net_{o1}}{\partial w_5}= net_{h_{1}}

(32)

d_w5= d_out_o1*d_net_o1*net_h1
print("d_w5={}".format(d_w5))

d_w5=0.05417131252562742

パラメータを更新する

w_5^+ = w_{5}- \eta \frac{\partial {L}}{\partial w_5}

(33)

3.2多層ネットワークへの一般化¶

以上の計算例には、２層ネットワークの場合の損失関数の勾配を誤差逆伝播法で計算できました。各層での勾配計算がチェーンルールに従っているため、層数が増えても理論的には同じ流れで処理できますため、任意の層数のネットワークに拡張することができます。

入力：学習サンプル $x_n$ および目標出力 $d_n$ のベア
出力：損失関数 $L_n(w)$ の各層 $l$ のパラメータについての微分 $\frac{\partial {L}}{\partial w_{ji}^{l}}$

順伝播: 入力データが層を通過して出力に達するまで順番に計算が行われます。
損失の計算: ネットワークの最終出力（予測値）と実際のラベルとの誤差（損失）を損失関数で計算します ( $\delta_j^{L}=z_j-d_j$ )
逆伝播: 各隠れ層では、l(=L-1, L-2,...)での $\delta^{(l)}$ を、 $\delta^{(l)}= (\frac{\partial z^{(l+1)}} {\partial z^{(l)}} \cdot \delta^{(l+1)}) \cdot f'(z^{l})$ のように、次の層からの勾配を逆伝播させ、チェーンルールを使って計算します。
パラメータの更新:逆伝播によって計算された勾配 $\delta^{(l)}$ を用いて、各層の重みとバイアスを更新します。