[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:dz-parser:icon [2009/10/20 18:20]
zeman Zbývá udělat.
user:zeman:dz-parser:icon [2009/10/20 18:29]
zeman Průzkum dat.
Line 12: Line 12:
   * Více si pohrát s rysy.   * Více si pohrát s rysy.
   * Více si pohrát s konfigurací Malt parseru.   * Více si pohrát s konfigurací Malt parseru.
 +
 +===== Průzkum dat =====
 +
 +Jak je zvykem, máme k dispozici data pro (d)trénink, dtest a etest (ta poslední jsou slepá, aspoň zatím). Každý datový soubor je k dispozici jednak s automaticky doplněnou (a zjednoznačněnou) morfologií (lemma, značka POS, morfologické kategorie), jednak bez ní (tj. na morfologické rovině pouze slovní tvar a značka chunku, ta by ale zřejmě měla být přiřazená ručně). Každý z uvedených souborů je ještě k dispozici jednak ve formátu CoNLL 2006, jednak v SSF (Shakti Standard Format, pro Indy je domovský, takže by stálo za to zjistit, zda se z něj převodem do CoNLL něco neztrácí).
 +
 +Následující statistiky pocházejí ze souborů pro dtrénink s automatickou morfologií:
 +
 +| Jazyk | Výskytů slov | Tvarů | Lemmat | ChunkPOS | POS+case+postpos | FEATS |
 +| hindština | 13779 | 3973 | 3134 | 10 | 297 | 714 |
 +| bengálština | 6449 | 2997 | 2336 | 14 | 398 | 367 |
 +| telugština | 5494 | 2462 | 1403 | 12 | 409 | 453 |
  
 První výsledky DZ Parseru na vývojových datech: První výsledky DZ Parseru na vývojových datech:

[ Back to the navigation ] [ Back to the content ]