Both sides previous revision
Previous revision
Next revision
|
Previous revision
|
padt:start [2013/06/25 13:21] zeman Chybějící afuny a lemmata. |
padt:start [2013/07/06 11:54] (current) zeman Fráze s číslovkami. |
| |
Uzly s čísly, interpunkcí a jinými symboly nemají lemmata. Buď můžeme zkopírovat slovní tvar do lemmatu, nebo pro čísla zavést jednotné lemma <number>, nebo něco jiného. | Uzly s čísly, interpunkcí a jinými symboly nemají lemmata. Buď můžeme zkopírovat slovní tvar do lemmatu, nebo pro čísla zavést jednotné lemma <number>, nebo něco jiného. |
| |
| ==== Zmatky v koordinacích ==== |
| |
| Stává se, že uzel je označen jako člen koordinace nebo apozice, ale jeho rodič nemá afun ''Coord'' ani ''Apos''. A naopak, existují uzly s jedním z těchto afunů, které pod sebou nemají žádný člen koordinace nebo apozice. Hamledtí test těch prvních případů našel 154, těch druhých 494. Asi je potřeba je projít ručně a se znalostí arabštiny. Jen část případů jde opravit poloautomaticky (jestliže jsem člen, mám právě jednoho sourozence, ten je taky člen a náš rodič je spojka وَ (wa), pak asi není co řešit a dotyčná spojka měla mít afun Coord). |
| |
| ==== Předložky, které nemají afun AuxP ==== |
| |
| Za předložku považujeme slovo, které má morfologickou značku začínající písmenem P. Za normálních okolností by předložka měla dostat syntaktickou značku (analytickou funkci, afun) AuxP. Podle anotačního manuálu (http://ufal.mff.cuni.cz/padt/PADT_1.0/docs/guides/PADT_Analytical.pdf) to vypadá, že některé předložky jsou na syntaktické rovině (přinejmenším v některých kontextech) považované za částice a dostanou jiné afuny než AuxP. |
| |
| Značka AuxY je ve [[http://ufal.mff.cuni.cz/padt/PADT_1.0/docs/papers/2002-flm-padt.pdf|Smrž et al. 2002]] popsána prostě jako „Others“. V PDT jde ovšem, pokud vím, převážně o listy, kdežto tady ji dostávají i předložky uvnitř stromu. [[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/ch03s02.html|Český manuál]] řekne jen o málo víc: „Příslovce a částice, které nelze zařadit jinam“. |
| |
| Značka AuxM je specifická pro PADT, v českém PDT chybí. Smrž et al. ji stručně popisují jako „Particles modifying the verb“. Představoval bych si, že půjde o spíše o listy, ale u předložek označených tímto afunem to rozhodně neplatí. Anotační manuál PADT jim věnuje kapitolu 3. I v manuálu lze nalézt příklady, kde AuxM není list. |
| |
| Částice سِوَى siwā (other than, except for, až na, kromě) je podle manuálu jedna ze dvou částic, které negují předcházející výraz a zavádějí místo něj následující výraz. V korpusu má morfologickou značku ''<nowiki>P---------</nowiki>'', tedy předložka. Má afun AuxM. Vyskytuje se však (mj.?) v situacích, kdy na ní visí další předložka, která už má AuxP. Příklad: lá tattasiu al-marákizu al-chássatu li istiqbáli him siwá li 13600 sarírin (ne rozšíří-se centra speciální pro příjem jich kromě pro 13600 postelí). Podstrom částice (předložky) „kromě“ dostal značku AuxM, protože modifikuje, vlastně částečně neguje význam slovesa. V češtině by asi předložka dostala AuxP a to pod ní Adv. Částice lá dostala také AuxM, tam je ale vše v pořádku, je to list a má morfologickou značku pro částici (''<nowiki>F---------</nowiki>''). |
| |
| ==== Fráze s číslovkami ==== |
| |
| Velmi často (nemám ověřeno, zda vždy) závisí počítané podstatné jméno na číslovce. Je pro to nějaký lingvistický důvod, nebo je to jen technické rozhodnutí? V českém PDT je to s číslovkami velmi složité. Pokud se číslovka shoduje s počítaným podstatným jménem v rodě, čísle a zejména pádě, závisí na něm. Pokud naopak číslovka určuje pád podstatného jména, závisí podstatné jméno na ní. Tento druhý případ se týká číslovek pět a vyšších, a to jen v některých pádech. Pokud je celá fráze v nominativu, akuzativu nebo vokativu, pak číslovka vyžaduje, aby podstatné jméno bylo v genitivu. Pokud je celá fráze v jiném pádě, pak se i tato číslovka s podstatným jménem shoduje. Kvůli této složité situaci v češtině zřejmě nebylo možné stanovit anotační pravidla pro arabštinu stejně. |
| |
| V normalizaci pro HamleDT nicméně dáváme přednost tomu, aby číslovka závisela na počítaném podstatném jménu. |