This is an old revision of the document!
Úlohy z počítačového zpracování přirozeného jazyka
Upozornění: Je možné, že některá zde uvedená zadání jsou již rozebrána, nebo dokonce letos vůbec nebyla v nabídce. Dostupnost zadání zjistíte na stránce http://ufal.mff.cuni.cz/cgi-bin/zeman/zapoctaky/rezervace_ukolu.pl, kde si také můžete zvolené zadání rezervovat pro sebe.
- Pavouk (získávání korpusu z webu)
- Minoritní jazyky (získávání korpusu z webu pro málo zastoupené jazyky)
- Hranice slov a vět (tokenizace a segmentace)
- Háčkování (doplňování chybějící diakritiky do textu)
Zadání týkající se parserů budou podobného ražení jako již vyvěšená zadání pro taggery. Některé parsery jsou závislostní (Malt, MST), některé složkové (Collins, Charniak, Stanford), takže s ohledem na dostupná data může být potřeba také provést konverzi mezi oběma formalismy.