[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

mst [2006/11/06 09:29] (current)
Line 1: Line 1:
 +===== Maximum Spanning Tree (MST) analytický parser =====
  
 +__Spravuje:​__ [[novak@ufal.mff.cuni.cz|Václav Novák]]
 +__Originální McDonaldovo README:__ ''​ /​f/​data/​MSTParser/​README ''​
 +__Popis technologie:​__ [[http://​acl.ldc.upenn.edu/​H/​H05/​H05-1066.pdf|McDonald et al. (2005)]]
 +
 +Existují různé možnosti spuštění. Dělí se podle použití:
 +  - Mám ''​.m''​ soubor a chci ''​.a''​ soubor od parseru. Použiju způsob 1)
 +  - Mám fůru ''​.m''​ souborů a chci ''​.a''​ soubory od parseru. Použiju způsob 2)
 +  - Nechci se upínat na běžící server a spustím si to celé sám: Postup 3)
 +  - Chci si natrénovat vlastní model: Postupuju podle 4)
 +  - Nechci vyrábět ''​.m''​ soubory, chci jen parsovat: Bod 5)
 +
 +====  1) kapesní verze ====
 +
 +__Platforma:​__ linux + java 1.5
 +__Dostupnost:​__ všechny výpočetní stroje a Linuxové pracovní stanice
 +__Program pro spuštění:​__ ''/​f/​data/​MSTParser/​parseMfile [[jmeno_m_souboru_pro_referenci]''​
 +
 +__Postup:__
 +  - Mám soubor clanek.m
 +  - Pustim parser:
 +<​code>​cat clanek.m | /​f/​data/​MSTParser/​parseMfile clanek.m > clanek.a</​code>​
 +
 +__Poznámky:​__
 +Argument programu (zde ''​clanek.m''​) ovlivní jen a pouze to, co se do výstupu napíše jako ''​reffile''​. Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče.
 +
 +
 +====  2) klientská verze ====
 +
 +__Platforma:​__ linux + java 1.5
 +__Dostupnost:​__ všechny výpočetní stroje a Linuxové pracovní stanice
 +__Program pro spuštění:​__
 +<​code>/​f/​data/​MSTParser/​clientParse.sh soubor_se_seznamem_m_souboru vystupni_adresar_pro_a_soubory</​code>​
 +
 +__Postup:__
 +1) Mám soubory ''​.m'',​ vytvořím si jejich seznam: ​
 +<​code>​ls *.m > seznam.txt</​code>​
 +2) Vytvorim adresar ''​out'',​ do kterého bude parser zapisovat:
 +<​code>​mkdir out</​code>​
 +3) Pustim parser:
 +<​code>/​f/​data/​MSTParser/​clientParse.sh seznam.txt out</​code>​
 +
 +__Poznámky:​__
 +Tento způsob bude rychlejší než 1), protože se k serveru připojí jen jednou. Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče.
 +
 +====  3) parser s úpravou pro PML ====
 +__Platforma:​__ Linux 64 bit, tedy např. troll, kentaur, zlobr, fretka, sol1 až sol10
 +__Dostupnost:​__ všechny 64-bitové výpočetní stroje
 +__Cesta:__ ''​ /​f/​data/​MSTParser ''​
 +__Použití:​__ ''​ /​f/​data/​MSTParser/​parsePML soubor_se_seznamem_m_souboru vystupni_adresar_pro_a_soubory ''​
 +__Poznámky:​__
 +
 +Argumenty jsou stejné jako u způsobu 2)
 +
 +64-bitové stroje jsou potřeba kvůli velké paměťové náročnosti. Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče. Samotné parsování probíhá velmi rychle, ale na začátku se nahrává model do paměti (cca. 6 min 30 s), proto je vhodné všechny soubory parsovat jedním spuštěním příkazu. Problémům se dá vyhnout použitím instantní verze parseru popsané výše.
 +
 +Případné přetrénování je možné, ale zatím není implementováno jeho rozšíření o PML formát.
 +
 +====  4) Originální parser ====
 +__Platforma:​__ Linux 64 bit, tedy např. troll, kentaur, zlobr, fretka, sol1 až sol10
 +__Dostupnost:​__ všechny 64-bitové výpočetní stroje
 +__Originální McDonaldovo README:__ ''​ /​f/​data/​MSTParser/​README ''​
 +__Cesta:__ ''​ /​f/​data/​MSTParser ''​
 +__Použití:​__ ''​ /​f/​data/​MSTParser/​mstParse ''​
 +__Poznámky:​__
 +
 +64-bitové stroje jsou potřeba kvůli velké paměťové náročnosti. ​
 +
 +Postupujte podle README
 +
 +====  5) klientský parser bez PML ====
 +
 +__Platforma:​__ linux + java 1.5
 +__Dostupnost:​__ všechny výpočetní stroje a Linuxové pracovní stanice
 +__Program pro spuštění:​__ ''/​f/​data/​MSTParser/​rawParse [[jmeno_mcd_souboru]''​
 +
 +__Postup:__
 +  - Mám soubor clanek.mcd
 +  - Pustim parser:
 +<​code>/​f/​data/​MSTParser/​rawParse clanek.mcd > clanekParsed.mcd</​code>​
 +
 +__Poznámky:​__
 +Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče.
 +Formát vstupu a výstupu je podle McDonalda. Ukázkový vstup a výstup:
 +/​f/​data/​MSTParser/​tmp/​MSTparserTestFile21035.tmp
 +/​f/​data/​MSTParser/​tmp/​MSTparserOutFile21035.tmp
 +
 +**Všechny znaky ve formách jsou malými písmeny a používá se dvouznakový tag.**
 +
 +-- Václav Novák, 2.8.2006

[ Back to the navigation ] [ Back to the content ]