Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
padt:start [2013/06/24 11:18] zeman Chyba v šití. |
padt:start [2013/07/06 11:54] (current) zeman Fráze s číslovkami. |
||
---|---|---|---|
Line 78: | Line 78: | ||
===== Poznámky před vydáním verze 2.0 ===== | ===== Poznámky před vydáním verze 2.0 ===== | ||
+ | |||
+ | ==== Chybné šití a duplicitní syntaktická ID ==== | ||
Při načítání PML PADT do Treexu narážím na záhadnou chybu. Hlášení podobné tomuto dostanu celkem sedmkrát, toto je první výskyt: | Při načítání PML PADT do Treexu narážím na záhadnou chybu. Hlášení podobné tomuto dostanu celkem sedmkrát, toto je první výskyt: | ||
Line 93: | Line 95: | ||
Čili není pravda, že by cílový prvek neexistoval. V odkazu ze syntaktického souboru jsem však objevil jednu anomálii. Odkaz vypadá takhle: ''< | Čili není pravda, že by cílový prvek neexistoval. V odkazu ze syntaktického souboru jsem však objevil jednu anomálii. Odkaz vypadá takhle: ''< | ||
+ | |||
+ | ==== Do budoucna ==== | ||
+ | |||
+ | Zkusil jsem dotyčné místo ručně opravit a chyba zmizela. Asi by to ale chtělo ověřit, že i ostatní místa, kde systém žádnou chybu nehlásí, vypadají tak, jak bychom si přáli. Zejména pokud dochází k druhé vlně tokenizace (rozdělení slova na dva a více tokenů), že na syntaktické rovině vidíme u každého uzlu všechny relevantní morfologické i slovní informace. Pokud nějaký syntaktický uzel odkazuje na slovní rovinu, ale neodkazuje na morfologickou, | ||
+ | |||
+ | ==== Zdvojený uzel ==== | ||
+ | |||
+ | Soubor EAT/ | ||
+ | |||
+ | ==== Atribut score ==== | ||
+ | |||
+ | Odstranit. Podle Otova vyjádření jde zřejmě o nějaký dočasný nepořádek, | ||
+ | |||
+ | ==== Exclude ==== | ||
+ | |||
+ | Co obsahují soubory .exclude.pml, | ||
+ | |||
+ | ==== Formát dat ==== | ||
+ | |||
+ | Hlavním formátem, ve kterém se bude PADT 2.0 distribuovat, | ||
+ | |||
+ | ==== Otovo TODO ==== | ||
+ | |||
+ | Viz ''/ | ||
+ | |||
+ | ==== Chybějící syntaktické anotace ==== | ||
+ | |||
+ | 1771 uzlů (podle hamledtích testů) nemá afun. A většinou jsou to uzly v řetízcích zleva doprava, čili odkaz na rodiče také nevypadá důvěryhodně. Někdy jsou to celé věty, jindy jen úseky vět. Z jakého důvodu je anotátoři vynechali. Jsou ty úseky tak obtížné, že anotátoři nevěděli, co s nimi? | ||
+ | |||
+ | ==== Chybějící lemmata ==== | ||
+ | |||
+ | Uzly s čísly, interpunkcí a jinými symboly nemají lemmata. Buď můžeme zkopírovat slovní tvar do lemmatu, nebo pro čísla zavést jednotné lemma < | ||
+ | |||
+ | ==== Zmatky v koordinacích ==== | ||
+ | |||
+ | Stává se, že uzel je označen jako člen koordinace nebo apozice, ale jeho rodič nemá afun '' | ||
+ | |||
+ | ==== Předložky, | ||
+ | |||
+ | Za předložku považujeme slovo, které má morfologickou značku začínající písmenem P. Za normálních okolností by předložka měla dostat syntaktickou značku (analytickou funkci, afun) AuxP. Podle anotačního manuálu (http:// | ||
+ | |||
+ | Značka AuxY je ve [[http:// | ||
+ | |||
+ | Značka AuxM je specifická pro PADT, v českém PDT chybí. Smrž et al. ji stručně popisují jako „Particles modifying the verb“. Představoval bych si, že půjde o spíše o listy, ale u předložek označených tímto afunem to rozhodně neplatí. Anotační manuál PADT jim věnuje kapitolu 3. I v manuálu lze nalézt příklady, kde AuxM není list. | ||
+ | |||
+ | Částice سِوَى siwā (other than, except for, až na, kromě) je podle manuálu jedna ze dvou částic, které negují předcházející výraz a zavádějí místo něj následující výraz. V korpusu má morfologickou značku ''< | ||
+ | |||
+ | ==== Fráze s číslovkami ==== | ||
+ | |||
+ | Velmi často (nemám ověřeno, zda vždy) závisí počítané podstatné jméno na číslovce. Je pro to nějaký lingvistický důvod, nebo je to jen technické rozhodnutí? | ||
+ | |||
+ | V normalizaci pro HamleDT nicméně dáváme přednost tomu, aby číslovka závisela na počítaném podstatném jménu. |