[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

mst [2006/11/06 09:29]
mst [2006/11/06 09:29] (current)
Line 1: Line 1:
 +===== Maximum Spanning Tree (MST) analytický parser =====
  
 +__Spravuje:__ [[novak@ufal.mff.cuni.cz|Václav Novák]]
 +__Originální McDonaldovo README:__ '' /f/data/MSTParser/README ''
 +__Popis technologie:__ [[http://acl.ldc.upenn.edu/H/H05/H05-1066.pdf|McDonald et al. (2005)]]
 +
 +Existují různé možnosti spuštění. Dělí se podle použití:
 +  - Mám ''.m'' soubor a chci ''.a'' soubor od parseru. Použiju způsob 1)
 +  - Mám fůru ''.m'' souborů a chci ''.a'' soubory od parseru. Použiju způsob 2)
 +  - Nechci se upínat na běžící server a spustím si to celé sám: Postup 3)
 +  - Chci si natrénovat vlastní model: Postupuju podle 4)
 +  - Nechci vyrábět ''.m'' soubory, chci jen parsovat: Bod 5)
 +
 +====  1) kapesní verze ====
 +
 +__Platforma:__ linux + java 1.5
 +__Dostupnost:__ všechny výpočetní stroje a Linuxové pracovní stanice
 +__Program pro spuštění:__ ''/f/data/MSTParser/parseMfile [[jmeno_m_souboru_pro_referenci]''
 +
 +__Postup:__
 +  - Mám soubor clanek.m
 +  - Pustim parser:
 +<code>cat clanek.m | /f/data/MSTParser/parseMfile clanek.m > clanek.a</code>
 +
 +__Poznámky:__
 +Argument programu (zde ''clanek.m'') ovlivní jen a pouze to, co se do výstupu napíše jako ''reffile''. Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče.
 +
 +
 +====  2) klientská verze ====
 +
 +__Platforma:__ linux + java 1.5
 +__Dostupnost:__ všechny výpočetní stroje a Linuxové pracovní stanice
 +__Program pro spuštění:__
 +<code>/f/data/MSTParser/clientParse.sh soubor_se_seznamem_m_souboru vystupni_adresar_pro_a_soubory</code>
 +
 +__Postup:__
 +1) Mám soubory ''.m'', vytvořím si jejich seznam: 
 +<code>ls *.m > seznam.txt</code>
 +2) Vytvorim adresar ''out'', do kterého bude parser zapisovat:
 +<code>mkdir out</code>
 +3) Pustim parser:
 +<code>/f/data/MSTParser/clientParse.sh seznam.txt out</code>
 +
 +__Poznámky:__
 +Tento způsob bude rychlejší než 1), protože se k serveru připojí jen jednou. Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče.
 +
 +====  3) parser s úpravou pro PML ====
 +__Platforma:__ Linux 64 bit, tedy např. troll, kentaur, zlobr, fretka, sol1 až sol10
 +__Dostupnost:__ všechny 64-bitové výpočetní stroje
 +__Cesta:__ '' /f/data/MSTParser ''
 +__Použití:__ '' /f/data/MSTParser/parsePML soubor_se_seznamem_m_souboru vystupni_adresar_pro_a_soubory ''
 +__Poznámky:__
 +
 +Argumenty jsou stejné jako u způsobu 2)
 +
 +64-bitové stroje jsou potřeba kvůli velké paměťové náročnosti. Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče. Samotné parsování probíhá velmi rychle, ale na začátku se nahrává model do paměti (cca. 6 min 30 s), proto je vhodné všechny soubory parsovat jedním spuštěním příkazu. Problémům se dá vyhnout použitím instantní verze parseru popsané výše.
 +
 +Případné přetrénování je možné, ale zatím není implementováno jeho rozšíření o PML formát.
 +
 +====  4) Originální parser ====
 +__Platforma:__ Linux 64 bit, tedy např. troll, kentaur, zlobr, fretka, sol1 až sol10
 +__Dostupnost:__ všechny 64-bitové výpočetní stroje
 +__Originální McDonaldovo README:__ '' /f/data/MSTParser/README ''
 +__Cesta:__ '' /f/data/MSTParser ''
 +__Použití:__ '' /f/data/MSTParser/mstParse ''
 +__Poznámky:__
 +
 +64-bitové stroje jsou potřeba kvůli velké paměťové náročnosti. 
 +
 +Postupujte podle README
 +
 +====  5) klientský parser bez PML ====
 +
 +__Platforma:__ linux + java 1.5
 +__Dostupnost:__ všechny výpočetní stroje a Linuxové pracovní stanice
 +__Program pro spuštění:__ ''/f/data/MSTParser/rawParse [[jmeno_mcd_souboru]''
 +
 +__Postup:__
 +  - Mám soubor clanek.mcd
 +  - Pustim parser:
 +<code>/f/data/MSTParser/rawParse clanek.mcd > clanekParsed.mcd</code>
 +
 +__Poznámky:__
 +Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče.
 +Formát vstupu a výstupu je podle McDonalda. Ukázkový vstup a výstup:
 +/f/data/MSTParser/tmp/MSTparserTestFile21035.tmp
 +/f/data/MSTParser/tmp/MSTparserOutFile21035.tmp
 +
 +**Všechny znaky ve formách jsou malými písmeny a používá se dvouznakový tag.**
 +
 +-- Václav Novák, 2.8.2006

[ Back to the navigation ] [ Back to the content ]