Čtení Kevina Knighta nedopadlo podle mého nijak slavně, ale věřím, že repete příští týden to napraví a vše se v dobré obrátí.
Co jsme se dozvěděli (prosím opravte mne, pokud něco píšu špatně):
dosavadní pstní modely pro EM “vyprávějí pohádku”, jak něco vzniká, ovšem neberou v úvahu už odvyprávěný začátek pohádky.
takové modely jsou proto nevhodné pro jazyková data, nereflektují skutečnost, že je v našich datech většina jevů rozdělena zipfovsky, tj. že lidé preferují opakovat už vyslovené
nová “bayesovská inference” je vybudována na pravděpodobnosti podmíněné právě historií vyprodukovaných jevů
Pavel Pecina je přesvědčen, že metoda učení (kterou jsme vlastně pořád neprobrali) je schopná se naučit jakékoli rozdělení, ne jen zipfovské. Ostatní jsme nevěděli a dokonce jsme se domnívali, že je metoda doslova postavena na tom, že se má naučit zipfovské rozdělení
prošli jsme si klíčový vzoreček definující P(rule | root(rule), cache) a uvědomili si, že cache se má užívat nezávislá pro různé root(rule), (aby platilo zjednodušení vzorečku na str. 11 uprostřed) čili se dá stejně dobře mluvit o P(rule | cache) pro pevně daný kořen
prošli jsme si otázky v bodu 15 a nyní např. víme, když máme už naplněnou cache, jak pomocí cache spočítat pst dané derivace, všech derivací vedoucích k danému stromu, všech derivací všech stromů v treebanku ap.
zabývali jsme se i tím, k čemu jsou odpovědi na tyhle otázky dobré, např. k výběru nejlepší derivace
Pavel Pecina nás upozornil, že pořád mluvíme o generování treebanku, a že ale v praxi vůbec takhle generovat nebudeme. Že si jen “v rámci trénování vyladíme parametry” (je cache parametr??) tak, aby nám z generování s vysokou pstí vypadl právě náš trénovací treebank, kdybychom omylem generovat začali. Jak ale tedy napíšu např. parser pro novou větu založený na gramatice strojově vykoukané z treebanku (a co je vůbec gramatika v tomto pojetí?? P_0 a vyplněná cache??), to nevíme.
Příště velmi stručně tohle zopakujeme na konkrétním příkladu z bodu 17. Pak
doufám, že se dobrodíme až do slibované sekce 26.
O.