Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
padt:start [2013/06/24 12:45] zeman Dva syntaktické odkazy na jeden morfologický token. |
padt:start [2013/06/25 13:21] zeman Chybějící afuny a lemmata. |
||
---|---|---|---|
Line 96: | Line 96: | ||
Čili není pravda, že by cílový prvek neexistoval. V odkazu ze syntaktického souboru jsem však objevil jednu anomálii. Odkaz vypadá takhle: ''< | Čili není pravda, že by cílový prvek neexistoval. V odkazu ze syntaktického souboru jsem však objevil jednu anomálii. Odkaz vypadá takhle: ''< | ||
- | Zkusil jsem dotyčné místo ručně opravit a chyba zmizela. Asi by to ale chtělo ověřit, že i ostatní místa, kde systém žádnou chybu nehlásí, vypadají tak, jak bychom si přáli. Zejména pokud dochází k druhé vlně tokenizace (rozdělení slova na dva a více tokenů), že na syntaktické rovině vidíme u každého uzlu všechny relevantní morfologické i slovní informace. | + | ==== Do budoucna ==== |
+ | |||
+ | Zkusil jsem dotyčné místo ručně opravit a chyba zmizela. Asi by to ale chtělo ověřit, že i ostatní místa, kde systém žádnou chybu nehlásí, vypadají tak, jak bychom si přáli. Zejména pokud dochází k druhé vlně tokenizace (rozdělení slova na dva a více tokenů), že na syntaktické rovině vidíme u každého uzlu všechny relevantní morfologické i slovní informace. Pokud nějaký syntaktický uzel odkazuje na slovní rovinu, ale neodkazuje na morfologickou, | ||
==== Zdvojený uzel ==== | ==== Zdvojený uzel ==== | ||
Soubor EAT/ | Soubor EAT/ | ||
+ | |||
+ | ==== Atribut score ==== | ||
+ | |||
+ | Odstranit. Podle Otova vyjádření jde zřejmě o nějaký dočasný nepořádek, | ||
+ | |||
+ | ==== Exclude ==== | ||
+ | |||
+ | Co obsahují soubory .exclude.pml, | ||
+ | |||
+ | ==== Formát dat ==== | ||
+ | |||
+ | Hlavním formátem, ve kterém se bude PADT 2.0 distribuovat, | ||
+ | |||
+ | ==== Otovo TODO ==== | ||
+ | |||
+ | Viz ''/ | ||
+ | |||
+ | ==== Chybějící syntaktické anotace ==== | ||
+ | |||
+ | 1771 uzlů (podle hamledtích testů) nemá afun. A většinou jsou to uzly v řetízcích zleva doprava, čili odkaz na rodiče také nevypadá důvěryhodně. Někdy jsou to celé věty, jindy jen úseky vět. Z jakého důvodu je anotátoři vynechali. Jsou ty úseky tak obtížné, že anotátoři nevěděli, co s nimi? | ||
+ | |||
+ | ==== Chybějící lemmata ==== | ||
+ | |||
+ | Uzly s čísly, interpunkcí a jinými symboly nemají lemmata. Buď můžeme zkopírovat slovní tvar do lemmatu, nebo pro čísla zavést jednotné lemma < |