[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
padt:start [2013/06/25 09:38]
zeman Otovo TODO.
padt:start [2013/07/06 11:54] (current)
zeman Fráze s číslovkami.
Line 119: Line 119:
  
 Viz ''/net/projects/padt/notices/todo.txt''. Viz ''/net/projects/padt/notices/todo.txt''.
 +
 +==== Chybějící syntaktické anotace ====
 +
 +1771 uzlů (podle hamledtích testů) nemá afun. A většinou jsou to uzly v řetízcích zleva doprava, čili odkaz na rodiče také nevypadá důvěryhodně. Někdy jsou to celé věty, jindy jen úseky vět. Z jakého důvodu je anotátoři vynechali. Jsou ty úseky tak obtížné, že anotátoři nevěděli, co s nimi?
 +
 +==== Chybějící lemmata ====
 +
 +Uzly s čísly, interpunkcí a jinými symboly nemají lemmata. Buď můžeme zkopírovat slovní tvar do lemmatu, nebo pro čísla zavést jednotné lemma <number>, nebo něco jiného.
 +
 +==== Zmatky v koordinacích ====
 +
 +Stává se, že uzel je označen jako člen koordinace nebo apozice, ale jeho rodič nemá afun ''Coord'' ani ''Apos''. A naopak, existují uzly s jedním z těchto afunů, které pod sebou nemají žádný člen koordinace nebo apozice. Hamledtí test těch prvních případů našel 154, těch druhých 494. Asi je potřeba je projít ručně a se znalostí arabštiny. Jen část případů jde opravit poloautomaticky (jestliže jsem člen, mám právě jednoho sourozence, ten je taky člen a náš rodič je spojka وَ (wa), pak asi není co řešit a dotyčná spojka měla mít afun Coord).
 +
 +==== Předložky, které nemají afun AuxP ====
 +
 +Za předložku považujeme slovo, které má morfologickou značku začínající písmenem P. Za normálních okolností by předložka měla dostat syntaktickou značku (analytickou funkci, afun) AuxP. Podle anotačního manuálu (http://ufal.mff.cuni.cz/padt/PADT_1.0/docs/guides/PADT_Analytical.pdf) to vypadá, že některé předložky jsou na syntaktické rovině (přinejmenším v některých kontextech) považované za částice a dostanou jiné afuny než AuxP.
 +
 +Značka AuxY je ve [[http://ufal.mff.cuni.cz/padt/PADT_1.0/docs/papers/2002-flm-padt.pdf|Smrž et al. 2002]] popsána prostě jako „Others“. V PDT jde ovšem, pokud vím, převážně o listy, kdežto tady ji dostávají i předložky uvnitř stromu. [[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/ch03s02.html|Český manuál]] řekne jen o málo víc: „Příslovce a částice, které nelze zařadit jinam“.
 +
 +Značka AuxM je specifická pro PADT, v českém PDT chybí. Smrž et al. ji stručně popisují jako „Particles modifying the verb“. Představoval bych si, že půjde o spíše o listy, ale u předložek označených tímto afunem to rozhodně neplatí. Anotační manuál PADT jim věnuje kapitolu 3. I v manuálu lze nalézt příklady, kde AuxM není list.
 +
 +Částice سِوَى siwā (other than, except for, až na, kromě) je podle manuálu jedna ze dvou částic, které negují předcházející výraz a zavádějí místo něj následující výraz. V korpusu má morfologickou značku ''<nowiki>P---------</nowiki>'', tedy předložka. Má afun AuxM. Vyskytuje se však (mj.?) v situacích, kdy na ní visí další předložka, která už má AuxP. Příklad: lá tattasiu al-marákizu al-chássatu li istiqbáli him siwá li 13600 sarírin (ne rozšíří-se centra speciální pro příjem jich kromě pro 13600 postelí). Podstrom částice (předložky) „kromě“ dostal značku AuxM, protože modifikuje, vlastně částečně neguje význam slovesa. V češtině by asi předložka dostala AuxP a to pod ní Adv. Částice lá dostala také AuxM, tam je ale vše v pořádku, je to list a má morfologickou značku pro částici (''<nowiki>F---------</nowiki>'').
 +
 +==== Fráze s číslovkami ====
 +
 +Velmi často (nemám ověřeno, zda vždy) závisí počítané podstatné jméno na číslovce. Je pro to nějaký lingvistický důvod, nebo je to jen technické rozhodnutí? V českém PDT je to s číslovkami velmi složité. Pokud se číslovka shoduje s počítaným podstatným jménem v rodě, čísle a zejména pádě, závisí na něm. Pokud naopak číslovka určuje pád podstatného jména, závisí podstatné jméno na ní. Tento druhý případ se týká číslovek pět a vyšších, a to jen v některých pádech. Pokud je celá fráze v nominativu, akuzativu nebo vokativu, pak číslovka vyžaduje, aby podstatné jméno bylo v genitivu. Pokud je celá fráze v jiném pádě, pak se i tato číslovka s podstatným jménem shoduje. Kvůli této složité situaci v češtině zřejmě nebylo možné stanovit anotační pravidla pro arabštinu stejně.
 +
 +V normalizaci pro HamleDT nicméně dáváme přednost tomu, aby číslovka závisela na počítaném podstatném jménu.

[ Back to the navigation ] [ Back to the content ]