====== Převod mezi CoNLL a PML ====== ===== Převod z CoNLL do PML ===== Pro převod [[Formát CoNLL|formátu CoNLL]] do [[Formát PML|PML]] slouží nástroj [[http://ufal.mff.cuni.cz/jazz/PML/tools/conll2pml|conll2pml]], který napsal Petr Pajas. Aktuální je vždy součástí rozšíření conll2009 pro [[http://ufal.mff.cuni.cz/~pajas/tred|TrEd]]. Pozor, toto „rozšíření“ nepřidá nový typ ''.conll'' do dialogu pro otevření souboru, jak by si někdo mohl myslet. Získáte s ním však perlový skript, který zavoláte z příkazového řádku, soubory si zkonvertujete do PML a pak už je můžete otevřít v Tredu. V českých Windows XP hledejte rozšíření a skript v cestě ''C:\Documents and Settings\$USERNAME\Data aplikací\.tred.d\extensions\conll2009\bin\conll2pml''. Na Linuxu v úfalí síti máte svou složku ''$HOME/.tred.d''. Starší verze skriptu je též součástí [[Parsery|Danových nástrojů pro parsing]]. Použití: $PARSINGROOT/tools/conll2pml.pl --technical-root --max-sentences 1000000 danish-train.conll Při převodu do PML jsou zachovány původní značky. Program vytvoří v aktuální složce soubor ''out_schema.xml'' a jeden nebo více souborů ve tvaru ''out_NNNN.pml'', kde NNNN jsou číslice. Pokud nepoužijete volbu --max-sentences, použije se výchozí hodnota 100, tj. program vytvoří nový soubor pro každých zhruba 100 vět. Výše uvedené nastavení zařídí, že pro běžné korpusy (milión vět už je opravdu hodně) dostanete jen jeden výstupní PML soubor a jedno schéma. Ovšem pozor, takový PML soubor může být nepříjemně veliký (např. pro necelých 1500 arabských vět je to přes 17 MB). Volba --technical-root je rovněž nezbytná pro uživatele zvyklé na prostředí pražských korpusů. Bez ní program považuje za kořen každý uzel, který uvádí závislost na uzlu 0. Většina stromů se tak rozpadne na lesy. S volbou --technical-root dostaneme jeden strom, ve kterém jsou tyto pseudokořeny spojeny pod jeden umělý uzel, kořen stromu. Další podrobnosti: $PARSINGROOT/tools/conll2pml.pl --help