[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
format-pml [2007/05/15 16:55]
zeman vytvořeno
format-pml [2007/05/16 08:57] (current)
zeman Převody formátů přestěhovány do samostatných článků.
Line 1: Line 1:
 ====== Formát PML ====== ====== Formát PML ======
  
-PML (Prague Markup Language) je formát pro ukládání korpusů anotovaných ve více rovinách. Formát je postaven na XML. Anotace na každé rovině je uložena v samostatném souboru, původní text (slovní tvary) má také svůj soubor. Prvky souborů odkazují na určitá místa v jiných souborech.+PML (Prague Markup Language) je [[Datové formáty|formát]] pro ukládání korpusů anotovaných ve více rovinách. Formát je postaven na XML. Anotace na každé rovině je uložena v samostatném souboru, původní text (slovní tvary) má také svůj soubor. Prvky souborů odkazují na určitá místa v jiných souborech.
  
 Formát PML je vyvíjen v rámci projektu [[http://ufal.mff.cuni.cz/jazz/PML/|JAZZ]] a poprvé byl použit v Pražském závislostním korpusu verze 2.0. Formát PML je vyvíjen v rámci projektu [[http://ufal.mff.cuni.cz/jazz/PML/|JAZZ]] a poprvé byl použit v Pražském závislostním korpusu verze 2.0.
  
-===== Převod z FS a CSTS =====+Na stránce [[pml-haters|PML Haters' Guide]] jsou příklady základních operací se soubory v PML.
  
-Makro pro Btred [[http://ufal.mff.cuni.cz/jazz/PML/tools/old2pml.btred|old2pml.btred]], jehož autorem je Petr Pajas.+===== Převody z a do jiných formátů =====
  
-===== Převod CoNLL ===== +  * [[Převod mezi CoNLL PML]] 
- +  * [[Převod mezi CSTS a PML]]
-Pro převod formátu CoNLL do [[Formát PML|PML]] slouží nástroj [[http://ufal.mff.cuni.cz/jazz/PML/tools/conll2pml|conll2pml]], který napsal Petr Pajas, ale nyní je také součástí [[Parsery|Danových nástrojů pro parsing]]: +
- +
-<code>$PARSINGROOT/tools/conll2pml.pl --technical-root --max-sentences 1000000 danish-train.conll</code> +
- +
-i převodu do PML jsou zachovány původní značky. Program vytvoří v&nbsp;aktuální složce soubor ''out_schema.xml'' jeden nebo více souborů ve tvaru ''out_NNNN.pml'', kde NNNN jsou číslice. Pokud nepoužijete volbu --max-sentences, použije se výchozí hodnota 100, tj. program vytvoří nový soubor pro každých zhruba 100 vět. Výše uvedené nastavení zařídí, že pro běžné korpusy (milión vět už je opravdu hodně) dostanete jen jeden výstupní PML soubor a jedno schéma. Ovšem pozor, takový PML soubor může být nepříjemně veliký (např. pro necelých 1500 arabských vět je to přes 17 MB). +
- +
-Volba --technical-root je rovněž nezbytná pro uživatele zvyklé na prostředí pražských korpusů. Bez ní program považuje za kořen každý uzel, který uvádí závislost na uzlu 0. Většina stromů se tak rozpadne na lesy. S&nbsp;volbou --technical-root dostaneme jeden strom, ve kterém jsou tyto pseudokořeny spojeny pod jeden umělý uzel, kořen stromu. +
- +
-Další podrobnosti: +
- +
-<code>$PARSINGROOT/tools/conll2pml.pl --help</code>+
  

[ Back to the navigation ] [ Back to the content ]