Table of Contents
Maximum Spanning Tree (MST) analytický parser
Spravuje: Václav Novák
Originální McDonaldovo README: /f/data/MSTParser/README
Popis technologie: McDonald et al. (2005)
Existují různé možnosti spuštění. Dělí se podle použití:
- Mám
.m
soubor a chci.a
soubor od parseru. Použiju způsob 1) - Mám fůru
.m
souborů a chci.a
soubory od parseru. Použiju způsob 2) - Nechci se upínat na běžící server a spustím si to celé sám: Postup 3)
- Chci si natrénovat vlastní model: Postupuju podle 4)
- Nechci vyrábět
.m
soubory, chci jen parsovat: Bod 5)
1) kapesní verze
Platforma: linux + java 1.5
Dostupnost: všechny výpočetní stroje a Linuxové pracovní stanice
Program pro spuštění: /f/data/MSTParser/parseMfile [[jmeno_m_souboru_pro_referenci]
Postup:
- Mám soubor clanek.m
- Pustim parser:
cat clanek.m | /f/data/MSTParser/parseMfile clanek.m > clanek.a
Poznámky:
Argument programu (zde clanek.m
) ovlivní jen a pouze to, co se do výstupu napíše jako reffile
. Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče.
2) klientská verze
Platforma: linux + java 1.5
Dostupnost: všechny výpočetní stroje a Linuxové pracovní stanice
Program pro spuštění:
/f/data/MSTParser/clientParse.sh soubor_se_seznamem_m_souboru vystupni_adresar_pro_a_soubory
Postup:
1) Mám soubory .m
, vytvořím si jejich seznam:
ls *.m > seznam.txt
2) Vytvorim adresar out
, do kterého bude parser zapisovat:
mkdir out
3) Pustim parser:
/f/data/MSTParser/clientParse.sh seznam.txt out
Poznámky:
Tento způsob bude rychlejší než 1), protože se k serveru připojí jen jednou. Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče.
3) parser s úpravou pro PML
Platforma: Linux 64 bit, tedy např. troll, kentaur, zlobr, fretka, sol1 až sol10
Dostupnost: všechny 64-bitové výpočetní stroje
Cesta: /f/data/MSTParser
Použití: /f/data/MSTParser/parsePML soubor_se_seznamem_m_souboru vystupni_adresar_pro_a_soubory
Poznámky:
Argumenty jsou stejné jako u způsobu 2)
64-bitové stroje jsou potřeba kvůli velké paměťové náročnosti. Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče. Samotné parsování probíhá velmi rychle, ale na začátku se nahrává model do paměti (cca. 6 min 30 s), proto je vhodné všechny soubory parsovat jedním spuštěním příkazu. Problémům se dá vyhnout použitím instantní verze parseru popsané výše.
Případné přetrénování je možné, ale zatím není implementováno jeho rozšíření o PML formát.
4) Originální parser
Platforma: Linux 64 bit, tedy např. troll, kentaur, zlobr, fretka, sol1 až sol10
Dostupnost: všechny 64-bitové výpočetní stroje
Originální McDonaldovo README: /f/data/MSTParser/README
Cesta: /f/data/MSTParser
Použití: /f/data/MSTParser/mstParse
Poznámky:
64-bitové stroje jsou potřeba kvůli velké paměťové náročnosti.
Postupujte podle README
5) klientský parser bez PML
Platforma: linux + java 1.5
Dostupnost: všechny výpočetní stroje a Linuxové pracovní stanice
Program pro spuštění: /f/data/MSTParser/rawParse [[jmeno_mcd_souboru]
Postup:
- Mám soubor clanek.mcd
- Pustim parser:
/f/data/MSTParser/rawParse clanek.mcd > clanekParsed.mcd
Poznámky:
Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče.
Formát vstupu a výstupu je podle McDonalda. Ukázkový vstup a výstup:
/f/data/MSTParser/tmp/MSTparserTestFile21035.tmp
/f/data/MSTParser/tmp/MSTparserOutFile21035.tmp
Všechny znaky ve formách jsou malými písmeny a používá se dvouznakový tag.
– Václav Novák, 2.8.2006