This is an old revision of the document!
homework2:
bonito chybne se.RV:
[lemma!="se"][tag="VpN.*" & lemma!="být|probíhat|souviset"][lemma="s" & tag="RV.*"]
bonito chybne se.P
[lemma="se" & word="se"][tag="A...7.*|N...7.*" & lc="[sšz].*"]
Počet výskytů: 4564
napsáno česky: nevim
mluvena produkce: 10^7 lidi krat 10^7rocne jeden clovek (200slov za minutu, 2h denne mluvi ~ 25.000)
homework: milion slov, korpus z jazyka:
udelat frekvencni seznam
cat text | sed “s/ /\n/g” | grep '[aeiouy'] | grep -v '….' | sort | uniq -c | head 20
prvni stranku frekvencniho seznamu pro jazyk
plus prezentace