[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
padt:start [2013/05/27 13:15]
zeman Aktualizována cesta k pracovní kopii vybalené z SVN.
padt:start [2013/07/06 11:54] (current)
zeman Fráze s číslovkami.
Line 7: Line 7:
 Install [[http://ufal.mff.cuni.cz/~pajas/tred/|TrEd]] including the [[http://ufal.mff.cuni.cz/~pajas/tred/extensions/padt/documentation/|padt]] and [[http://ufal.mff.cuni.cz/~pajas/tred/extensions/elixir/documentation/|elixir]] extensions from the default TrEd repository http://ufal.mff.cuni.cz/~pajas/tred/extensions/. Install [[http://ufal.mff.cuni.cz/~pajas/tred/|TrEd]] including the [[http://ufal.mff.cuni.cz/~pajas/tred/extensions/padt/documentation/|padt]] and [[http://ufal.mff.cuni.cz/~pajas/tred/extensions/elixir/documentation/|elixir]] extensions from the default TrEd repository http://ufal.mff.cuni.cz/~pajas/tred/extensions/.
  
-The SVN repository of the PADT project is https://svn.ms.mff.cuni.cz/svn/padt/. A working copy is accessible at /net/projects/padt on the ÚFAL network.+The SVN repository of the PADT project is https://svn.ms.mff.cuni.cz/svn/padt/ (see also [[https://svn.ms.mff.cuni.cz/trac/padt|Trac]]). A working copy is accessible at ''/net/projects/padt'' on the ÚFAL network.
  
 The project's data are stored in the main subdirectory ''data'', which is split further into ''Prague'', ''Penn'', and ''ElixirFM'', explained below. The project's data are stored in the main subdirectory ''data'', which is split further into ''Prague'', ''Penn'', and ''ElixirFM'', explained below.
Line 44: Line 44:
 data/Prague/XIN/ data/Prague/XIN/
  
-The project's contributors are ''smrz'', ''bielicky'', and ''zabokrtsky'', the rest of ''ufal'' have just the read rights.+The project's contributors are ''smrz'', ''bielicky'', ''zabokrtsky'' and ''zeman'', the rest of ''ufal'' have just the read rights.
  
 There is also the 'tools' directory which contains some useful scripts. There is also the 'tools' directory which contains some useful scripts.
  
 The code base for the PADT project, i.e. for annotation, display, and processing of the data, is the TrEd's ''padt'' extension, and its ''elixir'' extension that is a dependency for ''padt''. The code base for the PADT project, i.e. for annotation, display, and processing of the data, is the TrEd's ''padt'' extension, and its ''elixir'' extension that is a dependency for ''padt''.
 +
 ===== Agenda ===== ===== Agenda =====
 +
 +  * Write a block to read the PADT 2.0 data in Treex. An XML schema is needed.
 +  * Jak je to teď se zalámáním vět? Bude se nějak využívat prvek Unit? Současné stromy zatím pořád odpovídají odstavcům, s průměrným počtem 38 tokenů na strom. Treebank obsahuje 874 souborů (dokumentů), 7664 stromů (odstavců) a 289910 tokenů (nekořenových uzlů). Token je menší jednotka než slovo, přičemž je možné dohledat, které tokeny tvořily dohromady jedno slovo (týká se druhé tokenizace v rámci morfologické analýzy; odlepení interpunkce od slov je něco jiného).
  
 Focus on paragraphs/sentences that miss PADT-Morpho annotation, esp. non-annotated headlines: Focus on paragraphs/sentences that miss PADT-Morpho annotation, esp. non-annotated headlines:
Line 73: Line 77:
   * Improve documentation.   * Improve documentation.
  
-===== References =====+===== Poznámky před vydáním verze 2.0 ===== 
 + 
 +==== Chybné šití a duplicitní syntaktická ID ==== 
 + 
 +Při načítání PML PADT do Treexu narážím na záhadnou chybu. Hlášení podobné tomuto dostanu celkem sedmkrát, toto je první výskyt: 
 + 
 +<code>TREEX-INFO:   574.730: Loading EAT/AFP_ARB_20000715.0011.syntax.pml 
 +warning: KNIT failed: ID m-p6w17t1 not found in reffile '' 
 +TREEX-INFO:   575.704: Document 373/874 EAT/AFP_ARB_20000715.0011 loaded from EAT/AFP_ARB_20000715.0011.syntax.pml</code> 
 + 
 +Chybí mi informace, na kterém místě kterého zdrojáku k té chybě došlo. Také zřejmě chybí nějaké jméno souboru za tím "reffile". To, že je tato chyba dost řídká, naznačuje, že je nějaký problém na konkrétním místě vstupních dat, ale celková procedura načítání funguje dobře. Nicméně vstupní data jsem prohlédl a prvek s uvedeným ID tam je. 
 + 
 +  * Soubor EAT/AFP_ARB_20000715.0011.syntax.pml, řádek 1446, uzel s-p6w17t1 odkazuje na m-p6w17t1. 
 +  * Soubor EAT/AFP_ARB_20000715.0011.morpho.pml, řádek 4515, token m-p6w17t1 je první ze dvou tokenů, na které bylo rozděleno slovo لنكون. Toto slovo odkazuje na w-p6u1w17. 
 +  * Soubor EAT/AFP_ARB_20000715.0011.words.pml, řádek 522, slovo w-p6u1w17. Zde je uveden jen povrchový slovní tvar, nic víc. 
 +  * Soubor EAT/AFP_ARB_20000715.0011.treex, na řádku 3928 začíná a na řádku 4275 končí podstrom dotyčného uzlu. Vypadá, jako by nebyl nalezen ve slovníku (značka U, lemma je kopií slovního tvaru), což by mohl být důsledek porušeného odkazu ze syntaktické roviny na morfologickou. 
 + 
 +Čili není pravda, že by cílový prvek neexistoval. V odkazu ze syntaktického souboru jsem však objevil jednu anomálii. Odkaz vypadá takhle: ''<m.rf>m-p6w17t1</m.rf>'' zatímco podobné odkazy v okolí navíc ještě obsahují jakýsi identifikátor roviny, čili asi cílového souboru, např.: ''<m.rf>m#m-p6w16t1</m.rf>''
 + 
 +==== Do budoucna ==== 
 + 
 +Zkusil jsem dotyčné místo ručně opravit a chyba zmizela. Asi by to ale chtělo ověřit, že i ostatní místa, kde systém žádnou chybu nehlásí, vypadají tak, jak bychom si přáli. Zejména pokud dochází k druhé vlně tokenizace (rozdělení slova na dva a více tokenů), že na syntaktické rovině vidíme u každého uzlu všechny relevantní morfologické i slovní informace. Pokud nějaký syntaktický uzel odkazuje na slovní rovinu, ale neodkazuje na morfologickou, je to podezřelé. Může to být tím, že morfologický analyzátor opravdu slovo nerozpoznal, ale také tím, že se nějak pokazila ID tokenů a odkazy na ně. Např. v jednom souboru z ničeho nic měl druhý token slova ID m-p3w4l2t1, ačkoli na ostatních místech, na která jsem se koukal, ID neobsahovalo číslo lemmatu, čili v tomto případě by znělo m-p3w4t2. 
 + 
 +==== Zdvojený uzel ==== 
 + 
 +Soubor EAT/AFP_ARB_20000715.0033.syntax.pml, řádek 1409 až 1431. Jsou tu dva uzly (na sobě zavěšené) pro slovo p5w6. To slovo není na morfologické rovině rozdělené, takže pro dva uzly není důvod. Zatím jsem tomu závislému (a ve větě dříve ležícímu) uzlu upravil syntaktické ID, aby nebylo duplicitní. Nejradši bych celý uzel smazal, ale asi by to chtělo přečíslovat atributy ord v celé větě, aby tvořily souvislou posloupnost. 
 + 
 +==== Atribut score ==== 
 + 
 +Odstranit. Podle Otova vyjádření jde zřejmě o nějaký dočasný nepořádek, který Ota zapomněl uklidit. 
 + 
 +==== Exclude ==== 
 + 
 +Co obsahují soubory .exclude.pml, např. AFP_ARB_20000815.0095.syntax.exclude.pml? Máme je prostě vynechat z distribuce, nebo s nimi máme udělat něco sofistikovanějšího? 
 + 
 +==== Formát dat ==== 
 + 
 +Hlavním formátem, ve kterém se bude PADT 2.0 distribuovat, by zřejmě měl být PML, tak jak ho Ota navrhnul (tři, popř. čtyři roviny). Můžeme zvážit, zda přibalit i Treex, ale asi to není nutné, treexový blok Read::PADT by měl bohatě stačit. Zato ale určitě uděláme spoustě lidí radost, když nabídneme ty podstatné informace vytažené ve formátu CoNLL 2006. To bychom měli udělat. 
 + 
 +==== Otovo TODO ==== 
 + 
 +Viz ''/net/projects/padt/notices/todo.txt''
 + 
 +==== Chybějící syntaktické anotace ==== 
 + 
 +1771 uzlů (podle hamledtích testů) nemá afun. A většinou jsou to uzly v řetízcích zleva doprava, čili odkaz na rodiče také nevypadá důvěryhodně. Někdy jsou to celé věty, jindy jen úseky vět. Z jakého důvodu je anotátoři vynechali. Jsou ty úseky tak obtížné, že anotátoři nevěděli, co s nimi? 
 + 
 +==== Chybějící lemmata ==== 
 + 
 +Uzly s čísly, interpunkcí a jinými symboly nemají lemmata. Buď můžeme zkopírovat slovní tvar do lemmatu, nebo pro čísla zavést jednotné lemma <number>, nebo něco jiného. 
 + 
 +==== Zmatky v koordinacích ==== 
 + 
 +Stává se, že uzel je označen jako člen koordinace nebo apozice, ale jeho rodič nemá afun ''Coord'' ani ''Apos''. A naopak, existují uzly s jedním z těchto afunů, které pod sebou nemají žádný člen koordinace nebo apozice. Hamledtí test těch prvních případů našel 154, těch druhých 494. Asi je potřeba je projít ručně a se znalostí arabštiny. Jen část případů jde opravit poloautomaticky (jestliže jsem člen, mám právě jednoho sourozence, ten je taky člen a náš rodič je spojka وَ (wa), pak asi není co řešit a dotyčná spojka měla mít afun Coord). 
 + 
 +==== Předložky, které nemají afun AuxP ==== 
 + 
 +Za předložku považujeme slovo, které má morfologickou značku začínající písmenem P. Za normálních okolností by předložka měla dostat syntaktickou značku (analytickou funkci, afun) AuxP. Podle anotačního manuálu (http://ufal.mff.cuni.cz/padt/PADT_1.0/docs/guides/PADT_Analytical.pdf) to vypadá, že některé předložky jsou na syntaktické rovině (přinejmenším v některých kontextech) považované za částice a dostanou jiné afuny než AuxP. 
 + 
 +Značka AuxY je ve [[http://ufal.mff.cuni.cz/padt/PADT_1.0/docs/papers/2002-flm-padt.pdf|Smrž et al. 2002]] popsána prostě jako „Others“. V PDT jde ovšem, pokud vím, převážně o listy, kdežto tady ji dostávají i předložky uvnitř stromu. [[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/ch03s02.html|Český manuál]] řekne jen o málo víc: „Příslovce a částice, které nelze zařadit jinam“. 
 + 
 +Značka AuxM je specifická pro PADT, v českém PDT chybí. Smrž et al. ji stručně popisují jako „Particles modifying the verb“. Představoval bych si, že půjde o spíše o listy, ale u předložek označených tímto afunem to rozhodně neplatí. Anotační manuál PADT jim věnuje kapitolu 3. I v manuálu lze nalézt příklady, kde AuxM není list. 
 + 
 +Částice سِوَى siwā (other than, except for, až na, kromě) je podle manuálu jedna ze dvou částic, které negují předcházející výraz a zavádějí místo něj následující výraz. V korpusu má morfologickou značku ''<nowiki>P---------</nowiki>'', tedy předložka. Má afun AuxM. Vyskytuje se však (mj.?) v situacích, kdy na ní visí další předložka, která už má AuxP. Příklad: lá tattasiu al-marákizu al-chássatu li istiqbáli him siwá li 13600 sarírin (ne rozšíří-se centra speciální pro příjem jich kromě pro 13600 postelí). Podstrom částice (předložky) „kromě“ dostal značku AuxM, protože modifikuje, vlastně částečně neguje význam slovesa. V češtině by asi předložka dostala AuxP a to pod ní Adv. Částice lá dostala také AuxM, tam je ale vše v pořádku, je to list a má morfologickou značku pro částici (''<nowiki>F---------</nowiki>''). 
 + 
 +==== Fráze s číslovkami ==== 
 + 
 +Velmi často (nemám ověřeno, zda vždy) závisí počítané podstatné jméno na číslovce. Je pro to nějaký lingvistický důvod, nebo je to jen technické rozhodnutí? V českém PDT je to s číslovkami velmi složité. Pokud se číslovka shoduje s počítaným podstatným jménem v rodě, čísle a zejména pádě, závisí na něm. Pokud naopak číslovka určuje pád podstatného jména, závisí podstatné jméno na ní. Tento druhý případ se týká číslovek pět a vyšších, a to jen v některých pádech. Pokud je celá fráze v nominativu, akuzativu nebo vokativu, pak číslovka vyžaduje, aby podstatné jméno bylo v genitivu. Pokud je celá fráze v jiném pádě, pak se i tato číslovka s podstatným jménem shoduje. Kvůli této složité situaci v češtině zřejmě nebylo možné stanovit anotační pravidla pro arabštinu stejně. 
 + 
 +V normalizaci pro HamleDT nicméně dáváme přednost tomu, aby číslovka závisela na počítaném podstatném jménu.

[ Back to the navigation ] [ Back to the content ]