[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Formát Penn Treebanku

Formát pro uložení frázových syntaktických stromů, založený na závorkování.

Příklad si můžete prohlédnout např. v /net/data/LDC/PennTreebank3. Soubory Penn Treebanku se distribuují ve dvou tvarech. Tvar, ve kterém jsou vidět i morfologické značky, najdete v podsložce parsed/mrg. Asi nejznámější částí Penn Treebanku jsou texty z Wall Street Journalu, rozdělené do sekcí 00 až 24. První soubor této části tedy najdete v wsj/00/wsj_0001.mrg.

Převody z a do jiných formátů


[ Back to the navigation ] [ Back to the content ]