数学基礎 - 計算社会科学と自然言語処理

本講義は、深層学習(主にニューラルネットワーク)について解説します。ここでは、ニューラルネットワークの理解に必要な数学の基本知識をおさらいします。

1微分¶

ゼノンのパラドックス

速いアキレスが遅い亀を追いかける。亀が少し先からスタートした場合、アキレスがその地点に到達する間に、亀は少しだけ前に進んでしまう。アキレスが新しい位置に到達するたびに、亀もわずかに進むため、アキレスは無限に追いつけないように見える。
空を飛ぶ矢を、ある瞬間に観察すると、その矢は特定の位置に「静止」している。すべての瞬間で矢が静止しているなら、「動き」は存在しないのではないか？
パラドックスの原因は 0÷0:
$\frac{\Delta x}{\Delta t} = \frac{x(t+\Delta t) - x(t)}{\Delta t}$
(1)
極限（limit）の概念を導入することで、これらのパラドックスを解決できる。極限は、ある変数が特定の値に近づくときの関数の挙動を理解するための数学的手法である。
- アキレスと亀の例では、アキレスが亀に追いつく時間を考えるとき、時間の間隔を無限に小さくすることで、アキレスが亀に追いつく瞬間を正確に特定できる。
- 矢の例では、矢の位置を時間の関数として表現し、時間が非常に小さな値に近づくときの矢の位置の変化を考えることで、矢が動いていることを理解できる。
微分は「極限的に短い時間における変化率」を定義することにより、時間間隔がゼロに近づいても変化率（＝速度）は有限の値として存在することを整合的に表す（極限で無限を有限として扱える）。

1.1微分の概念¶

微分とは、結論から言うと、変数の微小な変化に対応する、関数の変化量を求めることです。

微分を用いると接線の傾きを計算することができます。このことから、微分が関数の最小化問題に有用なツールであることがわかります。

$x$ から $ℎ$ だけ離れた点 $𝑥+ℎ$ を考え, 2点を通る直線の傾きを求めることができます。

a= \frac{f(x + h) - f(x)}{(x+h)-x}

(2)

次に $h$ を $h \rightarrow 0$ のように小さくしていけば、直線の開始点と終了点の2点が1点に収束し、1点での接線として考えることができます。このように、平均変化率の極限値が存在するならば、微分可能であると言います。この式を $f$ の導関数 (derivative)と呼び、 $f'(x)$ と書きます。関数 $f(x)$ の微分係数 $f'(a)$ はその曲線の点 $(a,f(a))$ (接点)における接線の傾きです。

f'(x)= \lim_{h \rightarrow 0} \frac{f(x + h) - f(x)}{h}

(3)

導関数を求めることを微分(differentiation)するといいます。記号の使い方として、 $f'(x)$ を $\frac{df}{dx} (x)$ または $\frac{d}{dx}f (x)$ と書きます。

1.2Pythonによる微分計算¶

Pythonで分の近似計算関数を実装することができます

# 微分の近似計算の精度と計算の安定性のバランスをとるために、中心差分法といった関数の前後の点を使用して計算する方法を用いる
def numerical_diff(f,x):
    h = 1e-4 # 微小な変化量: 0.0001
    nd = (f(x+h) - f(x-h))/(2 * h)
    return nd

def function_1(x):
    return x**3 - 3*x**2 + x

print(numerical_diff(function_1, 4)) # 25.0 に近い値が期待される

25.000000010031442

PyTorchでは、微分を計算するために自動微分機能を利用することができます。

import torch

# 入力値をテンソルとして作成し、勾配計算を有効にする
x = torch.tensor(4.0, requires_grad=True)

# 関数の出力を計算
y = function_1(x)

# 勾配を計算
y.backward()

# 勾配を表示
print(x.grad.item())

25.0

1.3微分の公式¶

覚えておくと便利な微分の公式がありますので，以下に幾つか紹介していきます。

\begin{split}\begin{align} \left( c\right) ^{'}&=0 \\ \left( x\right)^{'}&=1\\ \left( cf(x) \right)^{'} &= c f'(x) \\ \left( x^{n} \right)^{'} &=nx^{n-1} \\ \left( f(x) + g(x) \right) ^{'} &=f^{'}(x)+g^{'}(x) \\ \left( f(x) g(x) \right) ^{'} &= f^{'}(x)g(x) + f(x)g^{'}(x) \\ \left( f(g(x)) \right) ^{'} &= \frac{df(u)}{du}\frac{du}{dx} = f^{'}(g(x)) \cdot g^{'}(x) \\ \end{align}\end{split}

(4)

1.4合成関数の微分¶

$𝑦=𝑓(𝑥)$ と $𝑧=𝑔(𝑦)$ の合成関数とは、 $𝑓$ を適用したあとに $𝑔$ を適用する関数、すなわち $𝑧=𝑔(𝑓(𝑥))$ のことを指します。

合成関数の導関数がそれぞれの導関数の積で与えられる性質は連鎖律（chain rule）と言います。

\frac{d}{dx} f(g(x)) = \frac{df(u)}{du}\frac{du}{dx}

(5)

合成関数の計算例

関数 $y = \sin(3x^2 + 4x)$ の微分を求めます。

ここで、

f(u) = \sin(u)

(6)

g(x) = 3x^2 + 4x

(7)

とし、 $y$ は $f$ と $g$ の合成関数、すなわち $y = f(g(x))$ であると考えます。

連鎖律を用いると:

\frac{dy}{dx} = \frac{df}{du} \cdot \frac{du}{dx}

(8)

$f'(u) = \cos(u)$
$g'(x) = 6x + 4$

これらを連鎖律の式に代入すると:

\frac{dy}{dx} = \cos(3x^2 + 4x) \cdot (6x + 4)

(9)

したがって、

y' = \cos(3x^2 + 4x) \cdot (6x + 4)

(10)

が得られます。

このように、連鎖律を使用することで、合成関数の微分を計算することができます。

1.5偏微分¶

機械学習において、多くの場合、複数の入力変数 $𝑥_1,𝑥_2,…,𝑥_n$ を用いて $𝑦$ を予測する多変数関数が扱われます。

偏微分とは、 $n$ 変数関数のある一つの変数以外の $n-1$ 個の変数の値を固定し、残りの1つの変数について関数を微分することです。

例えば、ある入力 $𝑥_n$ にのみ注目する偏微分は以下のように表します。

\frac{\partial}{\partial x_{n}} f(x_1, x_2, \dots, x_n)

(11)

微分を意味する記号が、 $𝑑$ から $\partial$ に変わっています。こうすると、 $\frac{\partial}{\partial x_{n}}$ は $x_n$ 以外を定数と考え、 $x_n$ にのみ着目して微分を行うという意味となります。

偏微分の例

\begin{split}\begin{aligned} \frac{\partial}{\partial x_1} \left( 3x_1+4x_2 \right) &= \frac{\partial}{\partial x_1} \left( 3x_1 \right) + \frac{\partial}{\partial x_1} \left( 4x_2 \right) \\ &= 3 \times \frac{\partial}{\partial x_1} \left( x_1 \right) + 4 \times \frac{\partial}{\partial x_1} x_2 \\ &= 3 \times 1 + 4 \times 0 \\ &= 3 \end{aligned}\end{split}

(12)

import numpy as np
import matplotlib.pyplot as plt
from sympy import symbols, diff
#plt.style.use('seaborn-poster') 

x, y = symbols('x y')

# 関数の定義
f = x**2 + y**2

# 偏微分の計算
partial_x = diff(f, x)
partial_y = diff(f, y)

print("Partial Derivative with respect to x:", partial_x)
print("Partial Derivative with respect to y:", partial_y)

# 可視化のためのデータ生成
X, Y = np.meshgrid(np.linspace(-5, 5, 100), np.linspace(-5, 5, 100))
Z = X**2 + Y**2
Zx = 2*X
Zy = 2*Y

fig = plt.figure(figsize=(20, 6))

# 関数の可視化
ax1 = fig.add_subplot(1, 3, 1, projection='3d')
ax1.plot_surface(X, Y, Z, cmap='jet')
ax1.set_title("Function: $f(x, y) = x^2 + y^2$",size=20)
ax1.set_xlabel('$x$', labelpad=15)
ax1.set_ylabel('$y$', labelpad=15)
ax1.set_zlabel('$f(x, y)$', labelpad=15)

# xに関する偏微分
ax2 = fig.add_subplot(1, 3, 2, projection='3d')
ax2.plot_surface(X, Y, Zx, cmap='jet')
ax2.set_title(r"Partial Derivative: $\frac{\partial}{\partial x}$",size=20)
ax2.set_xlabel('$x$', labelpad=15)
ax2.set_ylabel('$y$', labelpad=15)
ax2.set_zlabel(r'$\frac{\partial f}{\partial x}$', labelpad=15)

# yに関する偏微分
ax3 = fig.add_subplot(1, 3, 3, projection='3d')
ax3.plot_surface(X, Y, Zy, cmap='jet')
ax3.set_title(r"Partial Derivative: $\frac{\partial}{\partial y}$",size=20)
ax3.set_xlabel('$x$', labelpad=15)
ax3.set_ylabel('$y$', labelpad=15)
ax3.set_zlabel(r'$\frac{\partial f}{\partial y}$', labelpad=15)

plt.tight_layout()
plt.show()

2線型代数¶

2.1ベクトル¶

2.1.1ベクトルとは¶

ベクトル(vector)とは、大きさと向きを持つ量です。ベクトルは、数が一列に並んだ集まりとして表現できます。例えば、

\begin{split}{\bf x}= \begin{bmatrix} x_{1} \\ x_{2} \\ x_{3} \end{bmatrix}, \ {\bf y}=\begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{N} \end{bmatrix}\end{split}

(13)

上の例のように、その要素を縦方向に並べたものは列ベクトルと呼びます。一方、

{\bf z}=\begin{bmatrix} z_{1} & z_{2} & z_{3} \end{bmatrix}

(14)

のように、要素を横方向に並べたものは行ベクトルと呼びます。

一般的には、ベクトルを数式で書く際には, $\mathbf{W}$ のように太字の記号で表現するか、 $\vec{W}$ のようにベクトルの上に矢印を付けてベクトルを示すことが多いです。

2.1.2ベクトルの基本演算¶

加算（足し算）及び減算（引き算）は同じサイズのベクトル同士の間だけで成立します。

\begin{split}\begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix}+\begin{bmatrix} 4 \\ 5 \\ 6 \end{bmatrix}=\begin{bmatrix} 1 + 4 \\ 2 + 5 \\ 3 + 6 \end{bmatrix}=\begin{bmatrix} 5 \\ 7 \\ 9 \end{bmatrix}\end{split}

(15)

スカラ倍とはベクトルにスカラを掛ける演算です。

\begin{split} 10 \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix}=\begin{bmatrix} 10 * 1 \\ 10 * 2 \\ 10 * 3 \end{bmatrix}=\begin{bmatrix} 10 \\ 20 \\ 30 \end{bmatrix}\end{split}

(16)

複数のベクトル $\vec{a}_1, \vec{a}_2, \dots, \vec{a}_n$ に対して、

c_1\vec{a}_1 + c_2\vec{a}_2 + \dots + c_n\vec{a}_n

(17)

の形で作られるベクトルを線形結合といいます。

それらのベクトルをスカラーで伸ばしたり、足したりして作れるすべてのベクトルの集合をそれらのベクトルが張る空間（span）と呼びます

「あるベクトル集合のすべての線形結合を集めた集合」は、ベクトル空間になる。

ベクトル空間 $V$ において、その空間を張る最小限のベクトルの組（基底）が存在します。

このとき、

\dim(V) = \text{基底を構成するベクトルの本数}

(18)

を次元（dimension）と呼びます。

2.1.3ベクトルの内積¶

内積 (ドット積) とは、同じサイズの2つのベクトルは、それぞれのベクトルの同じ位置に対応する要素同士を掛け、それらを足し合わせる計算です。 $𝐱$ と $𝐲$ の内積は $𝐱\cdot𝐲$ で表されます。

\begin{split}\begin{aligned}& \begin{bmatrix} 1 & 2 & 3 \end{bmatrix} \cdot \begin{bmatrix} 4 \\ 5 \\ 6 \end{bmatrix} = 1 \times 4 + 2 \times 5 + 3 \times 6 = 32 \end{aligned}\end{split}

(19)

ドット積は、2つのベクトルの長さと角度に関係しています：

\mathbf{a} \cdot \mathbf{b} = |\mathbf{a}|\,|\mathbf{b}|\,\cos\theta

(20)

ここで：

$|\mathbf{a}|$ と $|\mathbf{b}|$ はベクトルの長さ（ノルム）
$\theta$ はベクトル間の角度

証明

ベクトル

\mathbf{a} = (a_1, a_2), \quad \mathbf{b} = (b_1, b_2)

(21)

を考え、原点 $O$ からそれぞれの終点を $A, B$ とします。なす角を $\theta$ とします（図のように）。

三角形 $OAB$ に余弦定理を使うと，

AB^2 = OA^2 + OB^2 - 2\,OA\,OB\,\cos\theta

(22)

すなわちベクトルの長さで表すと，

\|\mathbf{a} - \mathbf{b}\|^2 = \|\mathbf{a}\|^2 + \|\mathbf{b}\|^2 - 2\,\|\mathbf{a}\|\,\|\mathbf{b}\|\,\cos\theta

(23)

\|\mathbf{a} - \mathbf{b}\|^2 = (a_1 - b_1)^2 + (a_2 - b_2)^2

(24)

展開して整理すると：

\|\mathbf{a} - \mathbf{b}\|^2 = (a_1^2 + a_2^2) + (b_1^2 + b_2^2) - 2(a_1b_1 + a_2b_2)

(25)

すなわち，

\|\mathbf{a} - \mathbf{b}\|^2 = \|\mathbf{a}\|^2 + \|\mathbf{b}\|^2 - 2(a_1b_1 + a_2b_2)

(26)

右辺の形が同じなので，

2(a_1b_1 + a_2b_2) = 2\,\|\mathbf{a}\|\,\|\mathbf{b}\|\,\cos\theta

(27)

したがって，

\cos\theta = \dfrac{a_1b_1 + a_2b_2}{\|\mathbf{a}\|\,\|\mathbf{b}\|}

(28)

2.2行列¶

2.2.1行列とは¶

行列 (matrix) は同じサイズのベクトルを複数個並べたものです。例えば、

\begin{split} {\bf X} = \begin{bmatrix} x_{11} & x_{12} \\ x_{21} & x_{22} \\ x_{31} & x_{32} \end{bmatrix} \end{split}

(29)

$\mathbf{X}$ は「 3 行 2 列の行列」になります。

2.2.2行列積¶

行列の乗算には、行列積、外積、要素積（アダマール積）など複数の方法があります。ここではそのうち、機械学習の多くの問題で登場します行列積について説明します。

行列 $\mathbf{A}$ と行列 $\mathbf{B}$ の行列積は $\mathbf{AB}$ と書き、 $\mathbf{A}$ の各行と $\mathbf{B}$ の各列の内積を並べたものとして定義されます。

例えば、行列 $\mathbf{A}$ の1行目の行ベクトルと、行列 $\mathbf{B}$ の1列目の列ベクトルの内積の結果は、 $\mathbf{A}$ と $\mathbf{B}$ の行列積の結果を表す行列 $\mathbf{C}$ の1行1列目に対応します。

内積が定義される条件はベクトルのサイズが等しいということでしたが、ここでもそれが成り立つために、 $\mathbf{A}$ の行のサイズと $\mathbf{B}$ の列のサイズが一致する必要があります。

外積と要素積

外積

2つのベクトル $\mathbf{a}\in\mathbb{R}^m$ ， $\mathbf{b}\in\mathbb{R}^n$ について：

\mathbf{a}\mathbf{b}^T = \begin{bmatrix} a_1 b_1 & a_1 b_2 & \dots & a_1 b_n \\ a_2 b_1 & a_2 b_2 & \dots & a_2 b_n \\ \vdots & \vdots & \ddots & \vdots \\ a_m b_1 & a_m b_2 & \dots & a_m b_n \end{bmatrix}

(30)

となり、行列（m×n）を生成します。

\mathbf{a} = \begin{bmatrix}1\\2\\3\end{bmatrix}, \quad \mathbf{b} = \begin{bmatrix}4\\5\end{bmatrix}

(31)

\mathbf{a}\mathbf{b}^T = \begin{bmatrix} 1\cdot4 & 1\cdot5\\ 2\cdot4 & 2\cdot5\\ 3\cdot4 & 3\cdot5 \end{bmatrix} = \begin{bmatrix} 4 & 5\\ 8 & 10\\ 12 & 15 \end{bmatrix}

(32)

要素積

同じサイズの2つの行列 $A, B$ に対して，

A \circ B = [A_{ij} B_{ij}]

(33)

すなわち、同じ位置の要素同士を掛けるだけの積です。

A = \begin{bmatrix} 1 & 2\\ 3 & 4 \end{bmatrix}, \quad B = \begin{bmatrix} 5 & 6\\ 7 & 8 \end{bmatrix}

(34)

A \circ B = \begin{bmatrix} 1\cdot5 & 2\cdot6\\ 3\cdot7 & 4\cdot8 \end{bmatrix} = \begin{bmatrix} 5 & 12\\ 21 & 32 \end{bmatrix}

(35)

2.2.3転置¶

転置（transpose）とは、 $m$ 行 $n$ 列の行列 $\mathbf{A}$ に対して、 $\mathbf{A}$ の $(i, j)$ 要素と $(j, i)$ 要素を入れ替えて、 $n$ 行 $m$ 列の行列に変換する操作です。転置は行列の右肩に $T$ と書くことで表します。

\begin{split} {\bf A} =\begin{bmatrix} 1 & 4 \\ 2 & 5 \\ 3 & 6 \end{bmatrix}, \ {\bf A}^{\rm T}=\begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{bmatrix} \end{split}

(36)

転置について、以下の定理を覚えておきましょう。

\begin{split}\begin{aligned} &\left( 1\right) \ \left( {\bf A}^{\rm T} \right)^{\rm T} = {\bf A} \\ &\left( 2\right) \ \left( {\bf A}{\bf B} \right)^{\rm T} = {\bf B}^{\rm T}{\bf A}^{\rm T}\\ &\left( 3\right) \ \left( {\bf A}{\bf B}{\bf C} \right)^{\rm T} = {\bf C}^{\rm T}{\bf B}^{\rm T}{\bf A}^{\rm T} \end{aligned}\end{split}

(37)

2.2.4ベクトルによる微分と勾配¶

線形代数と深層学習

深層学習は、本質的に「多数のパラメータによる線形結合」と「非線形変換」による成り立つモデルであり、以下のような計算が行われます

y_i = w_{i1}x_1 + w_{i2}x_2 + \dots + w_{in}x_n + b_i

(38)

ただ、深層学習モデルには、このような計算が多く含まれています

\begin{cases} y_1 = w_{11}x_1 + w_{12}x_2 + \cdots + w_{1n}x_n + b_1 \\ y_2 = w_{21}x_1 + w_{22}x_2 + \cdots + w_{2n}x_n + b_2 \\ \vdots \\ y_m = w_{m1}x_1 + w_{m2}x_2 + \cdots + w_{mn}x_n + b_m \end{cases}

(39)

ここで、線形代数を使うことでまとめると非常に簡潔になります

\mathbf{y} = \mathbf{W}\mathbf{x} + \mathbf{b}

(40)

線形結合とは、スカラー倍したベクトル同士を足し合わせることです。

例えば、

\begin{split}\begin{aligned} {\bf b} &=\begin{bmatrix} 3 \\ 4 \end{bmatrix}, \ {\bf x} = \begin{bmatrix} x_{1} \\ x_{2} \end{bmatrix}\\ {\bf b}^{\rm T}{\bf x} &= \begin{bmatrix} 3 & 4 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = 3x_1 + 4x_2 \end{aligned}\end{split}

(41)

のように $\mathbf{x}$ の要素である $x_1$ および $x_2$ に関して一次式となっています。

$\mathbf{𝐛^T𝐱}$ をベクトル $\mathbf{x}$ で微分したものを、

\frac{\partial}{\partial {\bf x}} \left( {\bf b}^{\rm T}{\bf x} \right)

(42)

と表します。

「ベクトルで微分」とは、ベクトルのそれぞれの要素で対象を微分し、その結果を要素に対応する位置に並べてベクトルを作ることです。つまり、

\begin{split} \begin{aligned} \frac{\partial}{\partial {\bf x}} \left( {\bf b}^{\rm T} {\bf x} \right) &= \frac{\partial}{\partial {\bf x}} \left( 3x_1 + 4x_2 \right) \\ &= \begin{bmatrix} \frac{\partial}{\partial x_1} \left( 3x_1 + 4x_2 \right) & \frac{\partial}{\partial x_2} \left( 3x_1 + 4x_2 \right) \end{bmatrix} \end{aligned} \end{split} = \begin{bmatrix} 3 & 4 \end{bmatrix}

(43)

\mathbf{x}^{\mathrm{T}} \mathbf{y} = \mathbf{x} \cdot \mathbf{y}

転置はベクトルに対しても定義できます。転置を用いると、2 つの列ベクトル $𝐱$ , $𝐲$ の内積 $𝐱\cdot𝐲$ は、行列積を用いて $x^T 𝐲$ と書けます。

$\mathbf{x}$ と $\mathbf{y}$ がともに $n$ 次元のベクトルであるとき：

\mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix}, \quad \mathbf{y} = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix}

(44)

列ベクトル $\mathbf{x}$ の転置は行ベクトルになります：

\mathbf{x}^{\mathrm{T}} = [x_1, x_2, \dots, x_n]

(45)

したがって、行列の掛け算として：

\mathbf{x}^{\mathrm{T}} \mathbf{y} = [x_1, x_2, \dots, x_n] \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix} = x_1 y_1 + x_2 y_2 + \cdots + x_n y_n

(46)

すなわち、内積は転置を用いた行列積として表すことができる

\boxed{\mathbf{x}^{\mathrm{T}} \mathbf{y} = \mathbf{x} \cdot \mathbf{y}}

(47)

入力ベクトルの要素毎に出力に対する偏微分を計算し、それらを並べてベクトルにしたものが 勾配 (gradient) と言います。

つまり、多変数関数における傾きのようなもので、1変数関数のようにスカラーではなく、勾配で最も急な変化の方向とその大きさを示しています。勾配ベクトルは以下のように定義されます：

\nabla f = \left( \frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}, \ldots \right)

(48)

ここで、関数 $f(x,y)=x^2+y^2$ の値等高線とその勾配を同時にプロットします。赤い矢印が勾配ベクトルを示しており、各点で関数の最も急な上昇方向を指し示しています。


# 関数とその勾配
def function(x, y):
    return x**2 + y**2

def gradient(x, y):
    dfdx = 2*x
    dfdy = 2*y
    return dfdx, dfdy

# 座標の生成
x = np.linspace(-5, 5, 20)
y = np.linspace(-5, 5, 20)
X, Y = np.meshgrid(x, y)
Z = function(X, Y)
U, V = gradient(X, Y)

# 可視化
plt.figure(figsize=(10, 8))
plt.contour(X, Y, Z, levels=50, cmap='jet')  # 値を等高線で表示
plt.quiver(X, Y, U, V, angles='xy', scale_units='xy', scale=10, color='red', width=0.005)  # 勾配ベクトルを矢印で表示
plt.axhline(0, color='black', linewidth=0.5)
plt.axvline(0, color='black', linewidth=0.5)
plt.title('Gradient of $f(x, y) = x^2 + y^2$')
plt.xlabel('$x$')
plt.ylabel('$y$')
plt.grid(True)
plt.show()