Neuronové sítě (Hakl)
Zápisky z přednášek Ing. Františka Hakla, CSc.
Stránka, kde můžeme psát svoje připomínky k přednášce
Máme spoustu úloh, na jejichž řešení není známý žádný algoritmus, přestože je zvládnou řešit i celkem jednoduché biologické organismy, například rozpoznávání obrazu nebo autonomní pohyb. Neuronové sítě jsou pokus modelovat fungování těchto organismů.
Neuron uvažujeme jako funkci  skládající se z váhového vektoru  a nelineární aktivační funkce , daná předpisem .
Definice Nechť  je posloupnost dvojic . Potom aplikací delta pravidla dostaneme posloupnost  danou rekurentním předpisem:- .
- Pro každé  položíme . Je-li , potom skončíme a přejdeme na další , jinak vezmeme libovolné  a položíme  a opakujeme.
Věta Nechť posloupnost  vznikla aplikací delta pravidla a existuje vektor  splňujícíNechť dálePotom existuje  takové, že  a platíDůkaz Nechť  je takové, že . Označme .Platí .Podle Cauchy-Schwarzovy nerovnostiSoučasněSteleskopením přes  dostávámeDefinice Nechť . Dvojice  je lineární separátor množin , pokudLemma Nechť  a  je jejich lineární separátor. Potom existuje jejich lineární separátor  takový, žeDůkaz Nebudeme si ukazovat, ale je v principu jednoduchý: pokud náhodou pro nějaké body budeme mít stejný skalární součin, stačí nadrovinu maličko posunout.Věta Pro každé  existuje alespoň  podmnožin , které se dají lineárně separovat od svého doplňku.Důkaz Indukcí. Pro  máme čtyři podmnožiny a všechny jsou separovat. Nyní předpokládejme, že věta platí pro . Vezmeme lineární separátor  z předchozí věty. Přímka při posouvání ve směru normály nikdy neprotne dva body najednou, takže posouváním můžeme vytvořit  různých rozkladů. Nyní se přesuneme do -rozměrného prostoru, kde se naše množina vrcholů krychle skládá ze dvou kopií vrcholů -rozměrné krychle. Obě tyto podkrychle můžeme nezávisle na sobě rozdělit  způsoby nadrovinou s normálou . Ty propojíme do jedné nadroviny, která v závislosti na obou posunutích může rozdělit vrcholy -rozměrné krychle  způsoby, kde  je počet způsobů rozdělení původní krychle. Použitím indukčního předpokladu dostaneme, co chceme.Věta Pro každé  existuje množina  taková, že pro každý její celočíselný separátor  platíDůkaz Označme  množinu všech lineárně separabilních rozkladů  -rozměrné krychle. Pro každé  označme  množinu celočíselných separátorů. DefinujmeTo znamená, že k zapsání každého separátoru stačí  bitů. Tedy různých celočíselných separátorů existuje nanejvýš . Zároveň podle předchozí věty je jich alespoň . Tím dostáváme nerovnostcož mělo být dokázáno.Definice Nechť . Potom Mangasarianův lineární problém je úloha lineárního programování ve tvaru nalezení  minimalizujícíchza podmínekVěta Nechť . Potom- množiny  jsou lineárně separovatelné, právě když optimální hodnota Mangasarianovy úlohy je ,
- je-li optimální hodnota Mangasarianovy úlohy  a  je optimální řešení, potom  lineárně separuje .
Důkaz Nestihl jsem si to opsat, protože ten ňouma maže tabuli rychleji než Šťovíček odchází z místnosti po skončení přednášky.Definice Nechť  jsou dvojice z , ,  a . Pro každé  označme . Posloupnost  vznikla aplikací spojitého δ-pravidla, pokudPoznámka V podstatě je to relaxační metoda pro speciální tvar matice.Lemma Nechť . Potom  má vlastní číslo  s vlastním vektorem  a vlastní číslo  s vlastním vektorem kolmým na .Lemma Nechť . Potom .Definice Nechť . Označme . Potom pro každou permutaci  definujemeLemma Nechť pro všechna  platí  a  je generátor . Potom pro každou permutaci  platí .Věta Nechť posloupnost  vznikla z  podle spojitého δ-pravidla,  generuje celý prostor  a  minimalizujea pro všechna  platí . Potom posloupnost  konverguje ke konečnému cyklu délky  a každý vektor  tohoto cyklu je jediný pevný bod kontrahujícího zobrazení , kde . Navíc pokud  je libovolný člen tohoto cyklu for pevné , potomDefinice Neuronová síť  je konečný souvislý orientovaný acyklický graf s množinou vrcholů  ohodnocených dvojicemi reálných čísel . Hrany jsou ohodnoceny reálnými čísly . Počty vstupních a výstupních hran pro daný vrchol značíme . Je-li , resp. , jde o vstupní vrchol, resp. výstupní vrchol. Pro každý vrchol máme funkci . Hodnotu každého nevstupního vrcholu spočteme jako , kdeDefinice Pro každý vnitřní vrchol neuronové sítě označmeCestu  označímeMnožinu všech takových cest z  do  začínajících hranou  označíme .Lemma metoda back-propagation Pro neuronovou síť  platíDůkaz Vytvoříme pomocnou neuronovou síť , kde z  odebereme všechno, co není na cestě začínající hranou  a končící ve . Potom stačí použít řetězové pravidlo.Definice Mějme pro  vzory . Nechť  je posloupnost vah a prahů dopředné neuronové sítě a  je odpovídající vektor hodnot výstupních uzlů. Potom chybová funkce jeKonvergence stochastických gradientních metod
Definice Konvexní ztrátová funkce je diferencovatelná funkce , která má na  jediné minimum  a pro všechna  platíVěta Nechť  je konvexní ztrátová funkce a funkce  splňuje diferenciální rovniciPotom .Důkaz Nechť . PotomZ toho vidíme, že  je kladná klesající funkce, takže existuje . Z toho také . Pro spor předpokládejme, že . TBDLemma Nechť  je nezáporná posloupnost. Označmekde . PotomDůkaz Definujme analogickyTBDLemma Nechť  jsou kladné posloupnosti,  a existují konstanty  splňujícíPotom .Důkaz Definujeme pomocnou klesající posloupnostPlatíZ tohoZároveňZ tohoJelikož  konverguje, musí i  konvergovat.Věta konvergence gradientní metody s konvexní ztrátovou funkcí Nechť  je konvexní ztrátová funkce a posloupnost  je definována rekurencíkde  pro všechna  a platíNechť dále  jsou konstanty takové, že pro všechny  jePotom .Lemma Nechť  je zobecněná konvexní funkce, ,  je stochastická gradientní posloupnost pro  a pro  existují  taková, že pro všechna  jePotom pro všechna  od nějakého  je  s pravděpodobností .Důkaz náznak Schwarzova nerovnost