Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
padt:start [2011/05/27 00:34] smrz |
padt:start [2013/06/24 12:30] zeman Ruční oprava pomůže. |
||
---|---|---|---|
Line 3: | Line 3: | ||
http:// | http:// | ||
- | ===== Overview | + | ===== Setup ===== |
+ | |||
+ | Install [[http:// | ||
+ | |||
+ | The SVN repository of the PADT project is https:// | ||
+ | |||
+ | The project' | ||
+ | |||
+ | Try opening a PADT file to check if your setup is complete. Run TrEd and open the following files. They should automatically set their editing contexts and stylesheets to PADT:: | ||
+ | |||
+ | <code bash> | ||
+ | tred / | ||
+ | </ | ||
+ | |||
+ | For improved quality of display of the various scripts and trees types, you can use the following setup in TrEd's config file, or similar: | ||
+ | |||
+ | < | ||
+ | Font = " | ||
+ | |||
+ | NodeXSkip = 30; | ||
+ | NodeYSkip = 10; | ||
+ | </ | ||
===== Locations ===== | ===== Locations ===== | ||
Line 23: | Line 44: | ||
data/ | data/ | ||
- | The project' | + | The project' |
There is also the ' | There is also the ' | ||
Line 32: | Line 52: | ||
===== Agenda ===== | ===== Agenda ===== | ||
- | ===== References | + | * Write a block to read the PADT 2.0 data in Treex. An XML schema is needed. |
+ | * Jak je to teď se zalámáním vět? Bude se nějak využívat prvek Unit? Současné stromy zatím pořád odpovídají odstavcům, s průměrným počtem 38 tokenů na strom. Treebank obsahuje 874 souborů (dokumentů), | ||
+ | |||
+ | Focus on paragraphs/ | ||
+ | |||
+ | <code bash> | ||
+ | btred -QTe ' | ||
+ | </ | ||
+ | |||
+ | |||
+ | Focus on nodes in PADT-Syntax that do not have a valid '' | ||
+ | |||
+ | <code bash> | ||
+ | btred -QTNe 'print ThisAddress() . " | ||
+ | </ | ||
+ | |||
+ | |||
+ | There are some other tasks that have been partially solved in PADT, but need to be refreshed and completed: | ||
+ | |||
+ | * Retrain the CRF++ model for tagging selected morphological categories and apply it to prune remaining morphological ambiguities. | ||
+ | * Refresh and improve the code and rules for converting PATB phrase syntax trees into dependency trees a la PADT. | ||
+ | * Update PADT:: | ||
+ | * Update PADT:: | ||
+ | * Improve documentation. | ||
+ | |||
+ | ===== Poznámky před vydáním verze 2.0 ===== | ||
+ | |||
+ | Při načítání PML PADT do Treexu narážím na záhadnou chybu. Hlášení podobné tomuto dostanu celkem sedmkrát, toto je první výskyt: | ||
+ | |||
+ | < | ||
+ | warning: KNIT failed: ID m-p6w17t1 not found in reffile '' | ||
+ | TREEX-INFO: | ||
+ | |||
+ | Chybí mi informace, na kterém místě kterého zdrojáku k té chybě došlo. Také zřejmě chybí nějaké jméno souboru za tím " | ||
+ | |||
+ | * Soubor EAT/ | ||
+ | * Soubor EAT/ | ||
+ | * Soubor EAT/ | ||
+ | * Soubor EAT/ | ||
+ | |||
+ | Čili není pravda, že by cílový prvek neexistoval. V odkazu ze syntaktického souboru jsem však objevil jednu anomálii. Odkaz vypadá takhle: ''< | ||
+ | Zkusil jsem dotyčné místo ručně opravit a chyba zmizela. Asi by to ale chtělo ověřit, že i ostatní místa, kde systém žádnou chybu nehlásí, vypadají tak, jak bychom si přáli. Zejména pokud dochází k druhé vlně tokenizace (rozdělení slova na dva a více tokenů), že na syntaktické rovině vidíme u každého uzlu všechny relevantní morfologické i slovní informace. |