[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Table of Contents

Maximum Spanning Tree (MST) analytický parser

Spravuje: Václav Novák
Originální McDonaldovo README: /f/data/MSTParser/README
Popis technologie: McDonald et al. (2005)

Existují různé možnosti spuštění. Dělí se podle použití:

  1. Mám .m soubor a chci .a soubor od parseru. Použiju způsob 1)
  2. Mám fůru .m souborů a chci .a soubory od parseru. Použiju způsob 2)
  3. Nechci se upínat na běžící server a spustím si to celé sám: Postup 3)
  4. Chci si natrénovat vlastní model: Postupuju podle 4)
  5. Nechci vyrábět .m soubory, chci jen parsovat: Bod 5)

1) kapesní verze

Platforma: linux + java 1.5
Dostupnost: všechny výpočetní stroje a Linuxové pracovní stanice
Program pro spuštění: /f/data/MSTParser/parseMfile [[jmeno_m_souboru_pro_referenci]

Postup:

  1. Mám soubor clanek.m
  2. Pustim parser:
cat clanek.m | /f/data/MSTParser/parseMfile clanek.m > clanek.a

Poznámky:
Argument programu (zde clanek.m) ovlivní jen a pouze to, co se do výstupu napíše jako reffile. Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče.

2) klientská verze

Platforma: linux + java 1.5
Dostupnost: všechny výpočetní stroje a Linuxové pracovní stanice
Program pro spuštění:

/f/data/MSTParser/clientParse.sh soubor_se_seznamem_m_souboru vystupni_adresar_pro_a_soubory

Postup:
1) Mám soubory .m, vytvořím si jejich seznam:

ls *.m > seznam.txt

2) Vytvorim adresar out, do kterého bude parser zapisovat:

mkdir out

3) Pustim parser:

/f/data/MSTParser/clientParse.sh seznam.txt out

Poznámky:
Tento způsob bude rychlejší než 1), protože se k serveru připojí jen jednou. Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče.

3) parser s úpravou pro PML

Platforma: Linux 64 bit, tedy např. troll, kentaur, zlobr, fretka, sol1 až sol10
Dostupnost: všechny 64-bitové výpočetní stroje
Cesta: /f/data/MSTParser
Použití: /f/data/MSTParser/parsePML soubor_se_seznamem_m_souboru vystupni_adresar_pro_a_soubory
Poznámky:

Argumenty jsou stejné jako u způsobu 2)

64-bitové stroje jsou potřeba kvůli velké paměťové náročnosti. Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče. Samotné parsování probíhá velmi rychle, ale na začátku se nahrává model do paměti (cca. 6 min 30 s), proto je vhodné všechny soubory parsovat jedním spuštěním příkazu. Problémům se dá vyhnout použitím instantní verze parseru popsané výše.

Případné přetrénování je možné, ale zatím není implementováno jeho rozšíření o PML formát.

4) Originální parser

Platforma: Linux 64 bit, tedy např. troll, kentaur, zlobr, fretka, sol1 až sol10
Dostupnost: všechny 64-bitové výpočetní stroje
Originální McDonaldovo README: /f/data/MSTParser/README
Cesta: /f/data/MSTParser
Použití: /f/data/MSTParser/mstParse
Poznámky:

64-bitové stroje jsou potřeba kvůli velké paměťové náročnosti.

Postupujte podle README

5) klientský parser bez PML

Platforma: linux + java 1.5
Dostupnost: všechny výpočetní stroje a Linuxové pracovní stanice
Program pro spuštění: /f/data/MSTParser/rawParse [[jmeno_mcd_souboru]

Postup:

  1. Mám soubor clanek.mcd
  2. Pustim parser:
/f/data/MSTParser/rawParse clanek.mcd > clanekParsed.mcd

Poznámky:
Parser je natrénován na všech datech PDT2.0 s automatickými značkami Jana Hajiče.
Formát vstupu a výstupu je podle McDonalda. Ukázkový vstup a výstup:
/f/data/MSTParser/tmp/MSTparserTestFile21035.tmp
/f/data/MSTParser/tmp/MSTparserOutFile21035.tmp

Všechny znaky ve formách jsou malými písmeny a používá se dvouznakový tag.

– Václav Novák, 2.8.2006


[ Back to the navigation ] [ Back to the content ]