Differences

This shows you the differences between two versions of the page.

--- user:hladka:vladimir-rovensky [2008/03/23 19:36]
vladimir.rovensky
+++ user:hladka:vladimir-rovensky [2008/04/06 19:15]
vladimir.rovensky
@@ Line 5: / Line 5: @@
 ====== Schůzky ======
    * 3/3/2008
@@ Line 10: / Line 11: @@
    * 16/3/2008 U mě v kaslíku na sekretariátu ÚFAL (MS, místnost č. 408) máte nachystané CD-ROM (píše se o něm v zadání) a popis morfologických značek.
+====== Postup ======
 ==Nejasnosti==
-  * Smim ve vystupu tool-chainu pouzivat tagy <g> a <r> ?
+  * Smim ve vystupu tool-chainu pouzivat tagy <g> a <r> ? __Ne. To jsou informace pro syntax.__ (//[[hladka@ufal.mff.cuni.cz|hladka]] 25.3.2008 09:22//)
-  * Je nekde k dispozici cesky preklad tahaku ke znackam tagu <t>, pripadne vysvetlivky k nim ?
+  * Je nekde k dispozici cesky preklad tahaku ke znackam tagu <t>, pripadne vysvetlivky k nim ? __Ano - [[http://ufal.mff.cuni.cz/~hladka/rp200809/cz-appendix-D.pdf|zde]].__  (//[[hladka@ufal.mff.cuni.cz|hladka]] 25.3.2008 09:24//)
 ==Prvni naznak algoritmu==
-  - Rozparsovat vstup z tool-chainu - pravdepodobne staci chytat tagy <f> a v nich <t>, mozna by se hodily i <r> a <g> (id tokenu + ukazatel na nadrazeny token) ale asi to nespada do morfologie.
+  - Rozparsovat vstup z tool-chainu - pravdepodobne staci chytat tagy <f> a v nich <t>, mozna by se hodily i <r> a <g> (id tokenu + ukazatel na nadrazeny token) ale asi to nespada do morfologie. __tool_chain na vystupu nevydava <t>, pokud je v datech <t>, tak obsahuje znacku doplnenou rucne, tedy lidmi. tool_chain dava na vystupu <MDt>, tj., vystup automaticke procedury.__ (//[[hladka@ufal.mff.cuni.cz|hladka]] 25.3.2008 09:25//)
-  - Pokud je veta souvetim, rozdelit na hole vety, cele souveti je smysluplne, pokud jsou smysluplne vsechny hole vety v nem obsazene. Rozdelovani realizovat napr. vyhledanim interpunkce/spojek/predlozek... ty rozdeli souveti na nekolik casti, ty casti jez obsahuji sloveso jsou vety jednoduche.
+  Oprava: Ve vystupu tool_chainu najit tag <s> pro vetu a nasledne vybirat tagy <f>, resp <d> pro tokeny, v nich z <MDl> vybrat lemma, z <MDt> tagy.
+  - Pokud je veta souvetim, rozdelit na hole vety, cele souveti je smysluplne, pokud jsou smysluplne vsechny hole vety v nem obsazene. Rozdelovani realizovat napr. vyhledanim interpunkce/spojek/predlozek... ty rozdeli souveti na nekolik casti, ty casti jez obsahuji sloveso jsou vety jednoduche. __Muze byt.__ (//[[hladka@ufal.mff.cuni.cz|hladka]] 25.3.2008 09:31//)
   - Dale analyza pouze jednoduche vety. Napadly me dve veci ovlivnujici smysluplnost, ktere by se nejspis daly implementovat:
     * korektni vztahy mezi slovy - bylo by mozne definovat pro kazdou dvojici slovnich druhu podminky(=hodnoty v tagu <t>), ktere musi byt splneny, aby tato dvojice davala smysl. Napr. pro podstatna a pridavna jmena nejak takhle:
@@ Line 30: / Line 38: @@
 == Priklad ==
 Mame vetu "Pokud si chcete něco pouze vyzkoušet, použijte
-pískoviště." Prvni krok ji podle carky a  dvou sloves rozdeli na dve vety jednoduche. V prvni vete se Pokud navaze na sloveso chcete, si na jedno ze dvou sloves, vyssi prioritu bude mit chcete - je bliz, chcete nejspis muze tvorit dvojici s kterymkoli ze slov neco, pouze, vyzkouset atd. Urcite vznikne souvisly graf. Naopak pokud by v druhe vete bylo napr Použijte nový pískoviště, nebude souhlasit rod pridavneho a podstatneho jmena a vznikne nesouvisly graf. Mozny problem je, ze pokud by tam bylo napr. Použijte pískovištím, nelze takto (ne)smysluplnost rozeznat, nebot zalezi na vyznamu konkretniho slovesa s jakym se poji padem.
+pískoviště." Prvni krok ji podle carky a  dvou sloves rozdeli na dve vety jednoduche. V prvni vete se Pokud navaze na sloveso chcete, si na jedno ze dvou sloves, vyssi prioritu bude mit chcete - je bliz, chcete nejspis muze tvorit dvojici s kterymkoli ze slov neco, pouze, vyzkouset atd. Urcite vznikne souvisly graf. Naopak pokud by v druhe vete bylo napr Použijte nový pískoviště, nebude souhlasit rod pridavneho a podstatneho jmena a vznikne nesouvisly graf. Mozny problem je, ze pokud by tam bylo napr. Použijte pískovištím, nelze takto (ne)smysluplnost rozeznat, nebot zalezi na vyznamu konkretniho slovesa s jakym se poji padem. __Napad, ktery popisujete, dava dobry smysl. Muzete ho zacit implementovat;-)__ (//[[hladka@ufal.mff.cuni.cz|hladka]] 25.3.2008 09:31//)
+==Hotovo==
+  * zaklad algoritmu
+  * konecne se mi povedlo nainstalovat linux, tool_chain i vsechno ostatni potrebne, takze uz vim co parsovat. Za odmenu jsem si zahral miny.
+  * dodelal jsem zakladni sadu pravidel pro vztahy mezi slovnimi druhy, ta bude prubezne doplnovana
+  * definovan format souboru pro ukladani techto vztahu(txt soubor pro jednoduchou editaci)
+  * Kod : zakladni struktura programu, parsovani vystupu tool_chainu, parsovani vyse zmineneho custom formatu, zjistovani platnosti podminek

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences