Differences

This shows you the differences between two versions of the page.

--- padt:start [2013/05/30 12:34]
zeman Zalámání vět.
+++ padt:start [2013/06/24 14:36]
zeman Formát dat.
@@ Line 77: / Line 77: @@
   * Improve documentation.
-===== References =====
+===== Poznámky před vydáním verze 2.0 =====
+==== Chybné šití a duplicitní syntaktická ID ====
+Při načítání PML PADT do Treexu narážím na záhadnou chybu. Hlášení podobné tomuto dostanu celkem sedmkrát, toto je první výskyt:
+<code>TREEX-INFO:   574.730:	Loading EAT/AFP_ARB_20000715.0011.syntax.pml
+warning: KNIT failed: ID m-p6w17t1 not found in reffile ''
+TREEX-INFO:   575.704:	Document 373/874 EAT/AFP_ARB_20000715.0011 loaded from EAT/AFP_ARB_20000715.0011.syntax.pml</code>
+Chybí mi informace, na kterém místě kterého zdrojáku k té chybě došlo. Také zřejmě chybí nějaké jméno souboru za tím "reffile". To, že je tato chyba dost řídká, naznačuje, že je nějaký problém na konkrétním místě vstupních dat, ale celková procedura načítání funguje dobře. Nicméně vstupní data jsem prohlédl a prvek s uvedeným ID tam je.
+  * Soubor EAT/AFP_ARB_20000715.0011.syntax.pml, řádek 1446, uzel s-p6w17t1 odkazuje na m-p6w17t1.
+  * Soubor EAT/AFP_ARB_20000715.0011.morpho.pml, řádek 4515, token m-p6w17t1 je první ze dvou tokenů, na které bylo rozděleno slovo لنكون. Toto slovo odkazuje na w-p6u1w17.
+  * Soubor EAT/AFP_ARB_20000715.0011.words.pml, řádek 522, slovo w-p6u1w17. Zde je uveden jen povrchový slovní tvar, nic víc.
+  * Soubor EAT/AFP_ARB_20000715.0011.treex, na řádku 3928 začíná a na řádku 4275 končí podstrom dotyčného uzlu. Vypadá, jako by nebyl nalezen ve slovníku (značka U, lemma je kopií slovního tvaru), což by mohl být důsledek porušeného odkazu ze syntaktické roviny na morfologickou.
+Čili není pravda, že by cílový prvek neexistoval. V odkazu ze syntaktického souboru jsem však objevil jednu anomálii. Odkaz vypadá takhle: ''<m.rf>m-p6w17t1</m.rf>'' zatímco podobné odkazy v okolí navíc ještě obsahují jakýsi identifikátor roviny, čili asi cílového souboru, např.: ''<m.rf>m#m-p6w16t1</m.rf>''.
+==== Do budoucna ====
+Zkusil jsem dotyčné místo ručně opravit a chyba zmizela. Asi by to ale chtělo ověřit, že i ostatní místa, kde systém žádnou chybu nehlásí, vypadají tak, jak bychom si přáli. Zejména pokud dochází k druhé vlně tokenizace (rozdělení slova na dva a více tokenů), že na syntaktické rovině vidíme u každého uzlu všechny relevantní morfologické i slovní informace. Pokud nějaký syntaktický uzel odkazuje na slovní rovinu, ale neodkazuje na morfologickou, je to podezřelé. Může to být tím, že morfologický analyzátor opravdu slovo nerozpoznal, ale také tím, že se nějak pokazila ID tokenů a odkazy na ně. Např. v jednom souboru z ničeho nic měl druhý token slova ID m-p3w4l2t1, ačkoli na ostatních místech, na která jsem se koukal, ID neobsahovalo číslo lemmatu, čili v tomto případě by znělo m-p3w4t2.
+==== Zdvojený uzel ====
+Soubor EAT/AFP_ARB_20000715.0033.syntax.pml, řádek 1409 až 1431. Jsou tu dva uzly (na sobě zavěšené) pro slovo p5w6. To slovo není na morfologické rovině rozdělené, takže pro dva uzly není důvod. Zatím jsem tomu závislému (a ve větě dříve ležícímu) uzlu upravil syntaktické ID, aby nebylo duplicitní. Nejradši bych celý uzel smazal, ale asi by to chtělo přečíslovat atributy ord v celé větě, aby tvořily souvislou posloupnost.
+==== Atribut score ====
+Odstranit. Podle Otova vyjádření jde zřejmě o nějaký dočasný nepořádek, který Ota zapomněl uklidit.
+==== Formát dat ====
+Hlavním formátem, ve kterém se bude PADT 2.0 distribuovat, by zřejmě měl být PML, tak jak ho Ota navrhnul (tři, popř. čtyři roviny). Můžeme zvážit, zda přibalit i Treex, ale asi to není nutné, treexový blok Read::PADT by měl bohatě stačit. Zato ale určitě uděláme spoustě lidí radost, když nabídneme ty podstatné informace vytažené ve formátu CoNLL 2006. To bychom měli udělat.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences