Formát Penn Treebanku

Formát pro uložení frázových syntaktických stromů, založený na závorkování.

Příklad si můžete prohlédnout např. v /net/data/LDC/PennTreebank3. Soubory Penn Treebanku se distribuují ve dvou tvarech. Tvar, ve kterém jsou vidět i morfologické značky, najdete v podsložce parsed/mrg. Asi nejznámější částí Penn Treebanku jsou texty z Wall Street Journalu, rozdělené do sekcí 00 až 24. První soubor této části tedy najdete v wsj/00/wsj_0001.mrg.

Převody z a do jiných formátů

$PARSINGROOT/tools/penn2text.pl < wsj_0001.mrg > wsj_0001.txt