[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
padt:start [2013/06/24 11:18]
zeman Chyba v šití.
padt:start [2013/06/24 12:55]
zeman Upozornění na potenciální zdroj chyb.
Line 78: Line 78:
  
 ===== Poznámky před vydáním verze 2.0 ===== ===== Poznámky před vydáním verze 2.0 =====
 +
 +==== Chybné šití a duplicitní syntaktická ID ====
  
 Při načítání PML PADT do Treexu narážím na záhadnou chybu. Hlášení podobné tomuto dostanu celkem sedmkrát, toto je první výskyt: Při načítání PML PADT do Treexu narážím na záhadnou chybu. Hlášení podobné tomuto dostanu celkem sedmkrát, toto je první výskyt:
Line 93: Line 95:
  
 Čili není pravda, že by cílový prvek neexistoval. V odkazu ze syntaktického souboru jsem však objevil jednu anomálii. Odkaz vypadá takhle: ''<m.rf>m-p6w17t1</m.rf>'' zatímco podobné odkazy v okolí navíc ještě obsahují jakýsi identifikátor roviny, čili asi cílového souboru, např.: ''<m.rf>m#m-p6w16t1</m.rf>''. Čili není pravda, že by cílový prvek neexistoval. V odkazu ze syntaktického souboru jsem však objevil jednu anomálii. Odkaz vypadá takhle: ''<m.rf>m-p6w17t1</m.rf>'' zatímco podobné odkazy v okolí navíc ještě obsahují jakýsi identifikátor roviny, čili asi cílového souboru, např.: ''<m.rf>m#m-p6w16t1</m.rf>''.
 +
 +==== Do budoucna ====
 +
 +Zkusil jsem dotyčné místo ručně opravit a chyba zmizela. Asi by to ale chtělo ověřit, že i ostatní místa, kde systém žádnou chybu nehlásí, vypadají tak, jak bychom si přáli. Zejména pokud dochází k druhé vlně tokenizace (rozdělení slova na dva a více tokenů), že na syntaktické rovině vidíme u každého uzlu všechny relevantní morfologické i slovní informace. Pokud nějaký syntaktický uzel odkazuje na slovní rovinu, ale neodkazuje na morfologickou, je to podezřelé. Může to být tím, že morfologický analyzátor opravdu slovo nerozpoznal, ale také tím, že se nějak pokazila ID tokenů a odkazy na ně. Např. v jednom souboru z ničeho nic měl druhý token slova ID m-p3w4l2t1, ačkoli na ostatních místech, na která jsem se koukal, ID neobsahovalo číslo lemmatu, čili v tomto případě by znělo m-p3w4t2.
 +
 +==== Zdvojený uzel ====
 +
 +Soubor EAT/AFP_ARB_20000715.0033.syntax.pml, řádek 1409 až 1431. Jsou tu dva uzly (na sobě zavěšené) pro slovo p5w6. To slovo není na morfologické rovině rozdělené, takže pro dva uzly není důvod. Zatím jsem tomu závislému (a ve větě dříve ležícímu) uzlu upravil syntaktické ID, aby nebylo duplicitní. Nejradši bych celý uzel smazal, ale asi by to chtělo přečíslovat atributy ord v celé větě, aby tvořily souvislou posloupnost.

[ Back to the navigation ] [ Back to the content ]