homework2
1. bonito chybne se.RV:
[lemma!="se"][tag="VpN.*" & lemma!="být|probíhat|souviset"][lemma="s" & tag="RV.*"]
1. bonito chybne se.P
[lemma="se" & word="se"][tag="A...7.*|N...7.*" & lc="[sšz].*"]
Počet výskytů: 4564
2. chybné jí.V jsou vpodstatě všechny ~ 500
[word="jí" & tag="V.*"][tag!="....4.*"]
opačně minimálně našel jsem jen: jí šlehačku
3. chybné Pospíšil.V ~ 68
[word="[a-b].*"][word="[A-B].*" & tag="V.*" & lemma!="být"]
chybné Pospíšil.N ~ 936
[word="[A-Z].+[tčžšp]il" & tag="NN.*"][word="se|jsem|si|a"]
4. chybná spojka A ~ 194 amperu, clenu, cislovani seznamu
[lc="[0-9]+"][word="A" & tag="J.*"]
5. chybný imperativ ~ 101 pripadu, kdy vetsinou nekdo slabikuje
[word="..." & tag="Vi.*"][word="-"]
6. chybné verb místo adjektiva ala 'zelená' ~ 352
[lemma!="se|jak"][word=".*[vln]ená" & tag="V.*" & lemma!="z[ča].*"][lemma!="se"]
7. chybne RV ~ 266, nebo ala uloha c.1
[tag="RV.*" & lemma="s"][lc="(vě|br|vý).*"]
8. lokal bez predlozky ~ 276
[pos="[V]"][tag="NN..6.*"]
9. nesaturovaná předložka ~ 463 vetsinou chybne OCR
[lemma="s"][tag="N...[13456].*" & word="[a-z].*"]
10. ty zájmeno osobní ale pritom ukazovaci ~ 17922(!)
[word="ty" & tag="PD.*"][tag ="NN.*"]
11. ti zájmeno osobní ale pritom ukazovaci ~ 2933
[word="ti" & tag="PD.*"][tag ="NNMP.*"]
12. akuzativ za nominativ ~ 201
[tag="NN..1.*"][lemma="dostat|dovést|držet|houpat|dělat|mít"][tag="NN..1.*"]
13. vokativ nevokativ ~ 2449
[tag="NN..5.*"][pos!="[ZAP]" & tag!="....5.*"]{5}
14. dvě fin slovesa moc blízko ~ 7414
[tag="V.*" & tag!="V[esf].*" & lemma!="být|mít|bývat"][tag="V.*" & tag!="V[fism].*" & lemma!="být|mít"]
chybí čárky, nebo špatná lematizace
15. cizí slova jako necizí
[tag="Vi.S...2.*" & lemma!=".*(viz|pocem|t|ci)" & word!=".*[ěščřžýáíéňťď].*"] ~ 59
[word="der" & tag="Vi.*"] ~ 21
[tag="Vi.*" & word="[a-z]{0,4}" & word!="zmiz|nech|jdi|vem|jdi|ozvi|zkus|spi|mluv|viz|uhni|dej|hni|zlom|urvi|ubal|zvol|uber"] ~ 2778
16. chyby ve znaceni <s> podle klitik ~ 832
<s>[word="by|mi|ti|se"]
17. spojky nespoky ~ 5947
[pos="J" & word=".*o" & lc!="a?nebo|zatímco|zato|jako|co|proto|.*žto"]
18. chybná segmentace ~ 377
> Query : <s>[word="by|mi|ti|se"] > N-filter: [pos="Z"]
nutno rozepsat na dve casti, aby to netrvalo vecnost
19. spatna tokenizace ala ukol c.9
[lemma="s"][tag="N...[13456].*" & word="[a-z].*"]
homework1
8827 да 8046 мен 7475 бұл 6441 де 6184 және 6180 бір 5979 деп 5754 қазақ 4660 бар 4623 осы 4485 ал 4425 деген 3879 емес 3750 ол 3714 өз 3601 үшін 3529 жоқ 3398 керек 3257 сол 3219 қазақстан 3214 оның 3212 болып 2827 мемлекеттік 2650 ғана 2295 ұлттық 2259 біз 2166 болады 2157 ақ 2067 бірақ 2043 отыр 2022 болса 1992 ең 1957 екі 1841 туралы 1838 еді 1805 жылы 1795 біздің 1770 көп 1737 жаңа 1735 жатқан 1688 болды 1654 қазір 1654 басқа 1630 болған 1626 келген 1600 оны 1599 пен 1590 бойынша 1576 не 1566 жыл 1554 алып 1553 сондықтан 1544 тек 1540 олар 1527 екен 1512 олардың 1490 адам 1459 уақыты 1388 ел 1383 кейін 1372 орыс 1347 дейін 1336 тіл 1332 арқылы 1321 отырған 1297 өзі 1284 жұмыс 1264 үлкен 1246 оған 1243 бас 1227 саяси 1221 өткен 1217 жатыр 1207 енді 1174 қажет 1170 сөз 1158 қазіргі 1150 тағы 1135 ретінде 1133 қалай 1107 жалпы 1105 болатын 1094 дейді 1076 келеді 1066 мемлекет 1057 барлық 1052 кезде 1039 жақсы 1036 қазақстанның 1028 өйткені 1020 сияқты 1016 мүмкін 1015 ұлт 1014 яғни 1011 халық 1011 қандай 1003 егер 1002 ғой 1000 сондай 999 байланысты
poznamky
napsáno česky: nevim
mluvena produkce: 10^7 lidi krat 10^7rocne jeden clovek (200slov za minutu, 2h denne mluvi ~ 25.000)
homework: milion slov, korpus z jazyka:
udelat frekvencni seznam
cat text | sed “s/ /\n/g” | grep '[aeiouy'] | grep -v '….' | sort | uniq -c | head 20
prvni stranku frekvencniho seznamu pro jazyk
plus prezentace