Spravuje: Václav Novák
Originální McDonaldovo README: /f/data/MSTParser/README
Popis technologie: McDonald et al. (2005)
Existují různé možnosti spuštění. Dělí se podle použití:
.m
soubor a chci .a
soubor od parseru. Použiju způsob 1).m
souborů a chci .a
soubory od parseru. Použiju způsob 2).m
soubory, chci jen parsovat: Bod 5)
Platforma: linux + java 1.5
Dostupnost: všechny výpočetní stroje a Linuxové pracovní stanice
Program pro spuštění: /f/data/MSTParser/parseMfile [[jmeno_m_souboru_pro_referenci]
Postup:
cat clanek.m | /f/data/MSTParser/parseMfile clanek.m > clanek.a
Poznámky:
Argument programu (zde clanek.m
) ovlivní jen a pouze to, co se do výstupu napíše jako reffile
. Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče.
Platforma: linux + java 1.5
Dostupnost: všechny výpočetní stroje a Linuxové pracovní stanice
Program pro spuštění:
/f/data/MSTParser/clientParse.sh soubor_se_seznamem_m_souboru vystupni_adresar_pro_a_soubory
Postup:
1) Mám soubory .m
, vytvořím si jejich seznam:
ls *.m > seznam.txt
2) Vytvorim adresar out
, do kterého bude parser zapisovat:
mkdir out
3) Pustim parser:
/f/data/MSTParser/clientParse.sh seznam.txt out
Poznámky:
Tento způsob bude rychlejší než 1), protože se k serveru připojí jen jednou. Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče.
Platforma: Linux 64 bit, tedy např. troll, kentaur, zlobr, fretka, sol1 až sol10
Dostupnost: všechny 64-bitové výpočetní stroje
Cesta: /f/data/MSTParser
Použití: /f/data/MSTParser/parsePML soubor_se_seznamem_m_souboru vystupni_adresar_pro_a_soubory
Poznámky:
Argumenty jsou stejné jako u způsobu 2)
64-bitové stroje jsou potřeba kvůli velké paměťové náročnosti. Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče. Samotné parsování probíhá velmi rychle, ale na začátku se nahrává model do paměti (cca. 6 min 30 s), proto je vhodné všechny soubory parsovat jedním spuštěním příkazu. Problémům se dá vyhnout použitím instantní verze parseru popsané výše.
Případné přetrénování je možné, ale zatím není implementováno jeho rozšíření o PML formát.
Platforma: Linux 64 bit, tedy např. troll, kentaur, zlobr, fretka, sol1 až sol10
Dostupnost: všechny 64-bitové výpočetní stroje
Originální McDonaldovo README: /f/data/MSTParser/README
Cesta: /f/data/MSTParser
Použití: /f/data/MSTParser/mstParse
Poznámky:
64-bitové stroje jsou potřeba kvůli velké paměťové náročnosti.
Postupujte podle README
Platforma: linux + java 1.5
Dostupnost: všechny výpočetní stroje a Linuxové pracovní stanice
Program pro spuštění: /f/data/MSTParser/rawParse [[jmeno_mcd_souboru]
Postup:
/f/data/MSTParser/rawParse clanek.mcd > clanekParsed.mcd
Poznámky:
Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče.
Formát vstupu a výstupu je podle McDonalda. Ukázkový vstup a výstup:
/f/data/MSTParser/tmp/MSTparserTestFile21035.tmp
/f/data/MSTParser/tmp/MSTparserOutFile21035.tmp
Všechny znaky ve formách jsou malými písmeny a používá se dvouznakový tag.
– Václav Novák, 2.8.2006