[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
padt:start [2013/06/24 14:36]
zeman Formát dat.
padt:start [2013/06/25 13:21]
zeman Chybějící afuny a lemmata.
Line 107: Line 107:
  
 Odstranit. Podle Otova vyjádření jde zřejmě o nějaký dočasný nepořádek, který Ota zapomněl uklidit. Odstranit. Podle Otova vyjádření jde zřejmě o nějaký dočasný nepořádek, který Ota zapomněl uklidit.
 +
 +==== Exclude ====
 +
 +Co obsahují soubory .exclude.pml, např. AFP_ARB_20000815.0095.syntax.exclude.pml? Máme je prostě vynechat z distribuce, nebo s nimi máme udělat něco sofistikovanějšího?
  
 ==== Formát dat ==== ==== Formát dat ====
  
 Hlavním formátem, ve kterém se bude PADT 2.0 distribuovat, by zřejmě měl být PML, tak jak ho Ota navrhnul (tři, popř. čtyři roviny). Můžeme zvážit, zda přibalit i Treex, ale asi to není nutné, treexový blok Read::PADT by měl bohatě stačit. Zato ale určitě uděláme spoustě lidí radost, když nabídneme ty podstatné informace vytažené ve formátu CoNLL 2006. To bychom měli udělat. Hlavním formátem, ve kterém se bude PADT 2.0 distribuovat, by zřejmě měl být PML, tak jak ho Ota navrhnul (tři, popř. čtyři roviny). Můžeme zvážit, zda přibalit i Treex, ale asi to není nutné, treexový blok Read::PADT by měl bohatě stačit. Zato ale určitě uděláme spoustě lidí radost, když nabídneme ty podstatné informace vytažené ve formátu CoNLL 2006. To bychom měli udělat.
 +
 +==== Otovo TODO ====
 +
 +Viz ''/net/projects/padt/notices/todo.txt''.
 +
 +==== Chybějící syntaktické anotace ====
 +
 +1771 uzlů (podle hamledtích testů) nemá afun. A většinou jsou to uzly v řetízcích zleva doprava, čili odkaz na rodiče také nevypadá důvěryhodně. Někdy jsou to celé věty, jindy jen úseky vět. Z jakého důvodu je anotátoři vynechali. Jsou ty úseky tak obtížné, že anotátoři nevěděli, co s nimi?
 +
 +==== Chybějící lemmata ====
 +
 +Uzly s čísly, interpunkcí a jinými symboly nemají lemmata. Buď můžeme zkopírovat slovní tvar do lemmatu, nebo pro čísla zavést jednotné lemma <number>, nebo něco jiného.

[ Back to the navigation ] [ Back to the content ]