Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
padt:start [2013/05/27 23:19] zeman Odkaz na Trac. |
padt:start [2013/06/24 12:45] zeman Dva syntaktické odkazy na jeden morfologický token. |
||
---|---|---|---|
Line 44: | Line 44: | ||
data/ | data/ | ||
- | The project' | + | The project' |
There is also the ' | There is also the ' | ||
The code base for the PADT project, i.e. for annotation, display, and processing of the data, is the TrEd's '' | The code base for the PADT project, i.e. for annotation, display, and processing of the data, is the TrEd's '' | ||
+ | |||
===== Agenda ===== | ===== Agenda ===== | ||
* Write a block to read the PADT 2.0 data in Treex. An XML schema is needed. | * Write a block to read the PADT 2.0 data in Treex. An XML schema is needed. | ||
+ | * Jak je to teď se zalámáním vět? Bude se nějak využívat prvek Unit? Současné stromy zatím pořád odpovídají odstavcům, s průměrným počtem 38 tokenů na strom. Treebank obsahuje 874 souborů (dokumentů), | ||
Focus on paragraphs/ | Focus on paragraphs/ | ||
Line 75: | Line 77: | ||
* Improve documentation. | * Improve documentation. | ||
- | ===== References | + | ===== Poznámky před vydáním verze 2.0 ===== |
+ | |||
+ | ==== Chybné šití a duplicitní syntaktická ID ==== | ||
+ | |||
+ | Při načítání PML PADT do Treexu narážím na záhadnou chybu. Hlášení podobné tomuto dostanu celkem sedmkrát, toto je první výskyt: | ||
+ | |||
+ | < | ||
+ | warning: KNIT failed: ID m-p6w17t1 not found in reffile '' | ||
+ | TREEX-INFO: | ||
+ | |||
+ | Chybí mi informace, na kterém místě kterého zdrojáku k té chybě došlo. Také zřejmě chybí nějaké jméno souboru za tím " | ||
+ | |||
+ | * Soubor EAT/ | ||
+ | * Soubor EAT/ | ||
+ | * Soubor EAT/ | ||
+ | * Soubor EAT/ | ||
+ | |||
+ | Čili není pravda, že by cílový prvek neexistoval. V odkazu ze syntaktického souboru jsem však objevil jednu anomálii. Odkaz vypadá takhle: ''< | ||
+ | |||
+ | Zkusil jsem dotyčné místo ručně opravit a chyba zmizela. Asi by to ale chtělo ověřit, že i ostatní místa, kde systém žádnou chybu nehlásí, vypadají tak, jak bychom si přáli. Zejména pokud dochází k druhé vlně tokenizace (rozdělení slova na dva a více tokenů), že na syntaktické rovině vidíme u každého uzlu všechny relevantní morfologické i slovní informace. | ||
+ | |||
+ | ==== Zdvojený uzel ==== | ||
+ | |||
+ | Soubor EAT/ |