Formát pro uložení frázových syntaktických stromů, založený na závorkování.
Příklad si můžete prohlédnout např. v /net/data/LDC/PennTreebank3
. Soubory Penn Treebanku se distribuují ve dvou tvarech. Tvar, ve kterém jsou vidět i morfologické značky, najdete v podsložce parsed/mrg
. Asi nejznámější částí Penn Treebanku jsou texty z Wall Street Journalu, rozdělené do sekcí 00 až 24. První soubor této části tedy najdete v wsj/00/wsj_0001.mrg
.
Jeden frázový strom je vymezen párem kulatých závorek nejvyšší úrovně. Může, ale nemusí být celý na jednom řádku. (Bývá ovšem zvykem, že na jednom řádku nejsou pohromadě části více než jednoho stromu.)
Fráze uvnitř stromu jsou vymezeny vnořenými páry kulatých závorek.
Jestliže je k levé závorce přilepeno slovo, je to označení druhu fráze (neterminální symbol). Následují prvky fráze, kterými jsou vnořené fráze (páry závorek a jejich obsah).
Fráze, které nemají děti, obsahují právě jeden neterminální (resp. preterminální) a jeden terminální symbol. Neterminální (preterminální) symbol je v tomto případě morfologická značka, zatímco terminální symbol je slovo (token) z původního textu.
Pokud původní text obsahoval kulaté závorky, jsou v Penn Treebanku nahrazeny zástupnými řetězci. Pro levou kulatou závorku je to -LRB-
(left round bracket), pro pravou -RRB-
(right round bracket).
Frázový strom může také obsahovat tzv. stopy, kvůli kterým neplatí, že počet terminálních symbolů (a tedy počet listů stromu) je roven počtu tokenů v původním textu.