Neuronové sítě (Holeňa)

Zápisky z přednášek prof. Ing. RNDr. Martina Holeni, CSc.

Neuronové sítě původně vznikly z pokusu matematicky modelovat skutečné neurony.

Neurony budeme reprezentovat jako vrcholy $𝒱$ a spoje mezi nimi jako orientované hrany $𝒞 \subset 𝒱 \times 𝒱$ . Potom $(𝒱, 𝒞)$ je graf reprezentující neuronovou síť. Její topologie je $(V, 𝒞, ε)$ , kde $ε \subset {ϖ} \times 𝒱 \cup 𝒱 \times {ϖ}$ jsou nějaké hrany navíc mezi neurony a vnějším prostředím. Pro $v \in 𝒱$ značíme

i (v) ≔ {u \in 𝒱 | (u, v) \in 𝒞},

o (v) ≔ {u \in 𝒱 | (v, u) \in 𝒞},

ℐ ≔ {v | i (v) = \emptyset},

𝒪 ≔ {v | o (v) = \emptyset},

ℋ ≔ 𝒱 ∖ ℐ ∖ 𝒪 .

$ℐ$ jsou vstupní neurony (protože mají vstup pouze z vnějšího prostředí), $𝒪$ jsou výstupní neurony a $ℋ$ jsou skryté neurony. Navíc graf nesmí být redundantní, tedy každý vrchol musí být incidentní s nějakou hranou.

Čas budeme modelovat jako množinu $𝒯 \subset ℝ$ . Pro $t \in ℝ$ značíme $𝒯_{t}^{-} ≔ 𝒯 \cap (- \infty, t ⟩$ . Aktivita neuronu $v$ je funkce $z_{v} : 𝒯 \to ℝ$ . Je-li $z_{v} : 𝒯 \to ⟨ 0, 1 ⟩$ , jde o normalizovanou aktivitu. Stav neuronové sítě je $z (t) ≔ {(z_{v} (t))}_{v \in V}$ .

V čase $t$ bude síť reprezentovat nějakou funkci $F_{t}$ z aktivity vstupních neuronů do aktivity výstupních neuronů. Množinu všech možných takových funkcí značíme $ℱ_{t}$ . Systém ${(F_{t})}_{t \in 𝒯}$ nazveme aktivní dynamika sítě. Musí platit:

Všechny prvky mají stejný definiční obor.
Síť má konečný počet parametrů:
$(\exists k \in ℕ) (\forall t \in 𝒯) (\exists D_{t} \subset {𝒯_{t}^{-} \to ℝ^{| ℐ |}}) (\exists π_{t} : ℝ^{k} \to {D_{t} \to ℝ^{| 𝒪 |}}) (ℱ_{t} = π_{t} (ℝ^{k})) .$
Máme omezení na možné hodnoty parametrů:
$(\exists k \in ℕ) (\forall t \in 𝒯) (\exists W_{t} \subset ℝ^{k}) (\exists D_{t} \subset {𝒯_{t}^{-} \to ℝ^{| ℐ |}}) (\exists π_{t} : W_{t} \to {D_{t} \to ℝ^{| 𝒪 |}}) (ℱ_{t} = π_{t} (ℝ^{k})) .$

Lokální aktivní dynamika sítě je systém funkcí ${(ψ_{t}^{v})}_{t \in 𝒯, v \in 𝒱 ∖ ℐ}$ s vlastnostmi:

Pro každé $t \in 𝒯$ se dá $F_{t}$ vyjádřit jako složení zobrazení $ψ_{t}^{v}$ , které transformují aktivitu neuronů $i (v)$ na aktivitu neuronu $v$ .
Funkce $ψ_{t}^{v}$ pochází z množiny možných funkcí $Ψ_{t}^{v}$ .
Pro každý čas $t$ a nevstupní neuron $v \in 𝒱 ∖ ℐ$ mají všechny prvky $Ψ_{t}^{v}$ stejný definiční obor a platí
$(\forall v \in 𝒱 ∖ ℐ) (\exists k_{v} \in ℕ) (\forall t \in 𝒯) (\exists W_{t}^{v} \subset ℝ^{k_{v}}) (\exists D_{t}^{v} \subset {𝒯_{t}^{-} \to ℝ^{| i (v) |}}) (\exists π_{t}^{v} : W_{t}^{v} \to {D_{t}^{v} \to ℝ}) (Ψ_{t}^{v} = π_{t}^{v} (W_{t}^{v})) .$

Každý parametr sítě je přiřazen nějakému neuronu nebo hraně. Typicky má každý neuron práh $θ_{v}$ a každá hrana váhu $w_{(u, v)}$ , přičemž aktivita neuronu je definována jako

z_{v} (t) ≔ f (\sum_{u \in i (v)} w_{(u, v)} (t) z_{u} (t) + θ_{v} (t)),

kde $f$ je nějaká aktivační funkce. (Pro výstupní neurony to bývá identita.)

V praktickém využití se často neuvažuje závislost na čase, čímž se všechno výrazně zjednoduší.

Neuronová síť se nějak adaptuje na základě informací, které dostává od člověka (učitele), což může být jedno z následujících:

správná hodnota, která má být na výstupu,
nezáporné číslo vyjadřující, jak moc se její výstup liší od správného výstupu (ztrátová funkce),
nezáporné číslo vyjadřující spokojenost učitele.

Ztrátová funkce je funkce $γ (a, d) : ℝ^{| 𝒪 |} \times ℝ^{| 𝒪 |} \to ℝ_{0}^{+}$ , kde $a$ je výstup sítě a $d$ je správná hodnota. Nejběžnější ztrátové funkce jsou:

Součet čtverců: $γ (a, d) ≔ \sum_{i = 1}^{| 𝒪 |} {(a_{i} - d_{i})}^{2},$
Křížová entropie: $γ (a, d) ≔ - \sum_{i = 1}^{| 𝒪 |} (d_{i} \cdot log a_{i} + (1 - d_{i}) \cdot log (1 - a_{i})),$
Logistická ztráta: $γ (a, d) ≔ - d \cdot a + log (𝕖^{a} - 𝕖^{- a}) = log \frac{exp a - exp - a}{exp (d \cdot a)}$

Způsob, jakým budeme ztrátovou funkci minimalizovat, musíme uzpůsobit podle toho, kolikátou derivaci $γ$ známe.

Nejjednodušší možná „neuronová sít“ je Heavisideova funkce: $Θ (x) ≔ [x \geq 0]$ .

O něco složitější je perceptron (Rosenblatt, 1958):

y_{r} = Θ (\sum_{i = 1}^{k} w_{i} x_{i}) .

Učení perceptronu probíhá v epochách. Dostane učicí vzorek $x_{r}, r \in \hat{n}$ a zareaguje nějakým výstupem $y_{r}$ . Pokud neklasifikuje správně všechny vzorky, potom změníme váhy podle vzorce

Δ w_{i, r} ≔ ε_{x} (δ (r, s) - y_{r}) x_{i}, δ (r, s) ≔ [r = s] .

X \subset ℝ^{k}

K : X \times X \to ℝ_{0}^{+}