====== homework2 ======
1. bonito chybne se.RV:
[lemma!="se"][tag="VpN.*" & lemma!="být|probíhat|souviset"][lemma="s" & tag="RV.*"]
1. bonito chybne se.P
[lemma="se" & word="se"][tag="A...7.*|N...7.*" & lc="[sšz].*"]
Počet výskytů: 4564
2. **chybné jí.V** jsou vpodstatě všechny ~ 500
[word="jí" & tag="V.*"][tag!="....4.*"]
opačně minimálně našel jsem jen: jí šlehačku
3. **chybné Pospíšil.V** ~ 68
[word="[a-b].*"][word="[A-B].*" & tag="V.*" & lemma!="být"]
**chybné Pospíšil.N** ~ 936
[word="[A-Z].+[tčžšp]il" & tag="NN.*"][word="se|jsem|si|a"]
4. **chybná spojka A** ~ 194 amperu, clenu, cislovani seznamu
[lc="[0-9]+"][word="A" & tag="J.*"]
5. **chybný imperativ** ~ 101 pripadu, kdy vetsinou nekdo slabikuje
[word="..." & tag="Vi.*"][word="-"]
6. **chybné verb místo adjektiva ala 'zelená'** ~ 352
[lemma!="se|jak"][word=".*[vln]ená" & tag="V.*" & lemma!="z[ča].*"][lemma!="se"]
7. ** chybne RV ** ~ 266, nebo ala uloha c.1
[tag="RV.*" & lemma="s"][lc="(vě|br|vý).*"]
8. ** lokal bez predlozky ** ~ 276
[pos="[V]"][tag="NN..6.*"]
9. ** nesaturovaná předložka** ~ 463 vetsinou chybne OCR
[lemma="s"][tag="N...[13456].*" & word="[a-z].*"]
10. **ty** zájmeno osobní ale pritom ukazovaci ~ 17922(!)
[word="ty" & tag="PD.*"][tag ="NN.*"]
11. **ti** zájmeno osobní ale pritom ukazovaci ~ 2933
[word="ti" & tag="PD.*"][tag ="NNMP.*"]
12. ** akuzativ za nominativ ** ~ 201
[tag="NN..1.*"][lemma="dostat|dovést|držet|houpat|dělat|mít"][tag="NN..1.*"]
13. ** vokativ nevokativ** ~ 2449
[tag="NN..5.*"][pos!="[ZAP]" & tag!="....5.*"]{5}
14. ** dvě fin slovesa moc blízko** ~ 7414
[tag="V.*" & tag!="V[esf].*" & lemma!="být|mít|bývat"][tag="V.*" & tag!="V[fism].*" & lemma!="být|mít"]
chybí čárky, nebo špatná lematizace
15. ** cizí slova jako necizí **
[tag="Vi.S...2.*" & lemma!=".*(viz|pocem|t|ci)" & word!=".*[ěščřžýáíéňťď].*"] ~ 59
[word="der" & tag="Vi.*"] ~ 21
[tag="Vi.*" & word="[a-z]{0,4}" & word!="zmiz|nech|jdi|vem|jdi|ozvi|zkus|spi|mluv|viz|uhni|dej|hni|zlom|urvi|ubal|zvol|uber"] ~ 2778
16. ** chyby ve znaceni podle klitik ** ~ 832
[word="by|mi|ti|se"]
17. ** spojky nespoky ** ~ 5947
[pos="J" & word=".*o" & lc!="a?nebo|zatímco|zato|jako|co|proto|.*žto"]
18. ** chybná segmentace ** ~ 377
> Query : [word="by|mi|ti|se"]
> N-filter: [pos="Z"]
nutno rozepsat na dve casti, aby to netrvalo vecnost
19. ** spatna tokenizace ** ala ukol c.9
[lemma="s"][tag="N...[13456].*" & word="[a-z].*"]
====== homework1 ======
8827 да
8046 мен
7475 бұл
6441 де
6184 және
6180 бір
5979 деп
5754 қазақ
4660 бар
4623 осы
4485 ал
4425 деген
3879 емес
3750 ол
3714 өз
3601 үшін
3529 жоқ
3398 керек
3257 сол
3219 қазақстан
3214 оның
3212 болып
2827 мемлекеттік
2650 ғана
2295 ұлттық
2259 біз
2166 болады
2157 ақ
2067 бірақ
2043 отыр
2022 болса
1992 ең
1957 екі
1841 туралы
1838 еді
1805 жылы
1795 біздің
1770 көп
1737 жаңа
1735 жатқан
1688 болды
1654 қазір
1654 басқа
1630 болған
1626 келген
1600 оны
1599 пен
1590 бойынша
1576 не
1566 жыл
1554 алып
1553 сондықтан
1544 тек
1540 олар
1527 екен
1512 олардың
1490 адам
1459 уақыты
1388 ел
1383 кейін
1372 орыс
1347 дейін
1336 тіл
1332 арқылы
1321 отырған
1297 өзі
1284 жұмыс
1264 үлкен
1246 оған
1243 бас
1227 саяси
1221 өткен
1217 жатыр
1207 енді
1174 қажет
1170 сөз
1158 қазіргі
1150 тағы
1135 ретінде
1133 қалай
1107 жалпы
1105 болатын
1094 дейді
1076 келеді
1066 мемлекет
1057 барлық
1052 кезде
1039 жақсы
1036 қазақстанның
1028 өйткені
1020 сияқты
1016 мүмкін
1015 ұлт
1014 яғни
1011 халық
1011 қандай
1003 егер
1002 ғой
1000 сондай
999 байланысты
====== poznamky ======
napsáno česky: nevim
mluvena produkce: 10^7 lidi krat 10^7rocne jeden clovek (200slov za minutu, 2h denne mluvi ~ 25.000)
homework: milion slov, korpus z jazyka:
udelat frekvencni seznam
cat text | sed "s/ /\n/g" | grep '[aeiouy'] | grep -v '....' | sort | uniq -c | head 20
prvni stranku frekvencniho seznamu pro jazyk
plus prezentace