===== Maximum Spanning Tree (MST) analytický parser =====
__Spravuje:__ [[novak@ufal.mff.cuni.cz|Václav Novák]]
__Originální McDonaldovo README:__ '' /f/data/MSTParser/README ''
__Popis technologie:__ [[http://acl.ldc.upenn.edu/H/H05/H05-1066.pdf|McDonald et al. (2005)]]
Existují různé možnosti spuštění. Dělí se podle použití:
- Mám ''.m'' soubor a chci ''.a'' soubor od parseru. Použiju způsob 1)
- Mám fůru ''.m'' souborů a chci ''.a'' soubory od parseru. Použiju způsob 2)
- Nechci se upínat na běžící server a spustím si to celé sám: Postup 3)
- Chci si natrénovat vlastní model: Postupuju podle 4)
- Nechci vyrábět ''.m'' soubory, chci jen parsovat: Bod 5)
==== 1) kapesní verze ====
__Platforma:__ linux + java 1.5
__Dostupnost:__ všechny výpočetní stroje a Linuxové pracovní stanice
__Program pro spuštění:__ ''/f/data/MSTParser/parseMfile [[jmeno_m_souboru_pro_referenci]''
__Postup:__
- Mám soubor clanek.m
- Pustim parser:
cat clanek.m | /f/data/MSTParser/parseMfile clanek.m > clanek.a
__Poznámky:__
Argument programu (zde ''clanek.m'') ovlivní jen a pouze to, co se do výstupu napíše jako ''reffile''. Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče.
==== 2) klientská verze ====
__Platforma:__ linux + java 1.5
__Dostupnost:__ všechny výpočetní stroje a Linuxové pracovní stanice
__Program pro spuštění:__
/f/data/MSTParser/clientParse.sh soubor_se_seznamem_m_souboru vystupni_adresar_pro_a_soubory
__Postup:__
1) Mám soubory ''.m'', vytvořím si jejich seznam:
ls *.m > seznam.txt
2) Vytvorim adresar ''out'', do kterého bude parser zapisovat:
mkdir out
3) Pustim parser:
/f/data/MSTParser/clientParse.sh seznam.txt out
__Poznámky:__
Tento způsob bude rychlejší než 1), protože se k serveru připojí jen jednou. Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče.
==== 3) parser s úpravou pro PML ====
__Platforma:__ Linux 64 bit, tedy např. troll, kentaur, zlobr, fretka, sol1 až sol10
__Dostupnost:__ všechny 64-bitové výpočetní stroje
__Cesta:__ '' /f/data/MSTParser ''
__Použití:__ '' /f/data/MSTParser/parsePML soubor_se_seznamem_m_souboru vystupni_adresar_pro_a_soubory ''
__Poznámky:__
Argumenty jsou stejné jako u způsobu 2)
64-bitové stroje jsou potřeba kvůli velké paměťové náročnosti. Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče. Samotné parsování probíhá velmi rychle, ale na začátku se nahrává model do paměti (cca. 6 min 30 s), proto je vhodné všechny soubory parsovat jedním spuštěním příkazu. Problémům se dá vyhnout použitím instantní verze parseru popsané výše.
Případné přetrénování je možné, ale zatím není implementováno jeho rozšíření o PML formát.
==== 4) Originální parser ====
__Platforma:__ Linux 64 bit, tedy např. troll, kentaur, zlobr, fretka, sol1 až sol10
__Dostupnost:__ všechny 64-bitové výpočetní stroje
__Originální McDonaldovo README:__ '' /f/data/MSTParser/README ''
__Cesta:__ '' /f/data/MSTParser ''
__Použití:__ '' /f/data/MSTParser/mstParse ''
__Poznámky:__
64-bitové stroje jsou potřeba kvůli velké paměťové náročnosti.
Postupujte podle README
==== 5) klientský parser bez PML ====
__Platforma:__ linux + java 1.5
__Dostupnost:__ všechny výpočetní stroje a Linuxové pracovní stanice
__Program pro spuštění:__ ''/f/data/MSTParser/rawParse [[jmeno_mcd_souboru]''
__Postup:__
- Mám soubor clanek.mcd
- Pustim parser:
/f/data/MSTParser/rawParse clanek.mcd > clanekParsed.mcd
__Poznámky:__
Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče.
Formát vstupu a výstupu je podle McDonalda. Ukázkový vstup a výstup:
/f/data/MSTParser/tmp/MSTparserTestFile21035.tmp
/f/data/MSTParser/tmp/MSTparserOutFile21035.tmp
**Všechny znaky ve formách jsou malými písmeny a používá se dvouznakový tag.**
-- Václav Novák, 2.8.2006