This is an old revision of the document!
Úlohy z počítačového zpracování přirozeného jazyka
- Pavouk (získávání korpusu z webu)
- Hranice slov a vět (tokenizace a segmentace)
- Háčkování (doplňování chybějící diakritiky do textu)
Zadání týkající se parserů budou podobného ražení jako již vyvěšená zadání pro taggery. Některé parsery jsou závislostní (Malt, MST), některé složkové (Collins, Charniak, Stanford), takže s ohledem na dostupná data může být potřeba také provést konverzi mezi oběma formalismy.