Differences

This shows you the differences between two versions of the page.

@@ Line 1: / Line 1: @@
+===== Maximum Spanning Tree (MST) analytický parser =====
+__Spravuje:__ [[novak@ufal.mff.cuni.cz|Václav Novák]]
+__Originální McDonaldovo README:__ '' /f/data/MSTParser/README ''
+__Popis technologie:__ [[http://acl.ldc.upenn.edu/H/H05/H05-1066.pdf|McDonald et al. (2005)]]
+Existují různé možnosti spuštění. Dělí se podle použití:
+  - Mám ''.m'' soubor a chci ''.a'' soubor od parseru. Použiju způsob 1)
+  - Mám fůru ''.m'' souborů a chci ''.a'' soubory od parseru. Použiju způsob 2)
+  - Nechci se upínat na běžící server a spustím si to celé sám: Postup 3)
+  - Chci si natrénovat vlastní model: Postupuju podle 4)
+  - Nechci vyrábět ''.m'' soubory, chci jen parsovat: Bod 5)
+====  1) kapesní verze ====
+__Platforma:__ linux + java 1.5
+__Dostupnost:__ všechny výpočetní stroje a Linuxové pracovní stanice
+__Program pro spuštění:__ ''/f/data/MSTParser/parseMfile [[jmeno_m_souboru_pro_referenci]''
+__Postup:__
+  - Mám soubor clanek.m
+  - Pustim parser:
+<code>cat clanek.m | /f/data/MSTParser/parseMfile clanek.m > clanek.a</code>
+__Poznámky:__
+Argument programu (zde ''clanek.m'') ovlivní jen a pouze to, co se do výstupu napíše jako ''reffile''. Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče.
+====  2) klientská verze ====
+__Platforma:__ linux + java 1.5
+__Dostupnost:__ všechny výpočetní stroje a Linuxové pracovní stanice
+__Program pro spuštění:__
+<code>/f/data/MSTParser/clientParse.sh soubor_se_seznamem_m_souboru vystupni_adresar_pro_a_soubory</code>
+__Postup:__
+) Mám soubory ''.m'', vytvořím si jejich seznam:
+<code>ls *.m > seznam.txt</code>
+) Vytvorim adresar ''out'', do kterého bude parser zapisovat:
+<code>mkdir out</code>
+) Pustim parser:
+<code>/f/data/MSTParser/clientParse.sh seznam.txt out</code>
+__Poznámky:__
+Tento způsob bude rychlejší než 1), protože se k serveru připojí jen jednou. Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče.
+====  3) parser s úpravou pro PML ====
+__Platforma:__ Linux 64 bit, tedy např. troll, kentaur, zlobr, fretka, sol1 až sol10
+__Dostupnost:__ všechny 64-bitové výpočetní stroje
+__Cesta:__ '' /f/data/MSTParser ''
+__Použití:__ '' /f/data/MSTParser/parsePML soubor_se_seznamem_m_souboru vystupni_adresar_pro_a_soubory ''
+__Poznámky:__
+Argumenty jsou stejné jako u způsobu 2)
+-bitové stroje jsou potřeba kvůli velké paměťové náročnosti. Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče. Samotné parsování probíhá velmi rychle, ale na začátku se nahrává model do paměti (cca. 6 min 30 s), proto je vhodné všechny soubory parsovat jedním spuštěním příkazu. Problémům se dá vyhnout použitím instantní verze parseru popsané výše.
+Případné přetrénování je možné, ale zatím není implementováno jeho rozšíření o PML formát.
+====  4) Originální parser ====
+__Platforma:__ Linux 64 bit, tedy např. troll, kentaur, zlobr, fretka, sol1 až sol10
+__Dostupnost:__ všechny 64-bitové výpočetní stroje
+__Originální McDonaldovo README:__ '' /f/data/MSTParser/README ''
+__Cesta:__ '' /f/data/MSTParser ''
+__Použití:__ '' /f/data/MSTParser/mstParse ''
+__Poznámky:__
+-bitové stroje jsou potřeba kvůli velké paměťové náročnosti.
+Postupujte podle README
+====  5) klientský parser bez PML ====
+__Platforma:__ linux + java 1.5
+__Dostupnost:__ všechny výpočetní stroje a Linuxové pracovní stanice
+__Program pro spuštění:__ ''/f/data/MSTParser/rawParse [[jmeno_mcd_souboru]''
+__Postup:__
+  - Mám soubor clanek.mcd
+  - Pustim parser:
+<code>/f/data/MSTParser/rawParse clanek.mcd > clanekParsed.mcd</code>
+__Poznámky:__
+Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče.
+Formát vstupu a výstupu je podle McDonalda. Ukázkový vstup a výstup:
+/f/data/MSTParser/tmp/MSTparserTestFile21035.tmp
+/f/data/MSTParser/tmp/MSTparserOutFile21035.tmp
+**Všechny znaky ve formách jsou malými písmeny a používá se dvouznakový tag.**
+-- Václav Novák, 2.8.2006

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences