[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


homework2

napsáno česky: nevim
mluvena produkce: 10^7 lidi krat 10^7rocne jeden clovek (200slov za minutu, 2h denne mluvi ~ 25.000)

homework: milion slov, korpus z jazyka:
udelat frekvencni seznam

cat text | sed “s/ /\n/g” | grep '[aeiouy'] | grep -v '….' | sort | uniq -c | head 20

prvni stranku frekvencniho seznamu pro jazyk
plus prezentace

1. bonito chybne se.RV:

[lemma!="se"][tag="VpN.*" & lemma!="být|probíhat|souviset"][lemma="s" & tag="RV.*"]

1. bonito chybne se.P

[lemma="se" & word="se"][tag="A...7.*|N...7.*" & lc="[sšz].*"]

Počet výskytů: 4564

2. chybné jí.V jsou vpodstatě všechny ~ 500

[word="jí" & tag="V.*"][tag!="....4.*"]

opačně minimálně našel jsem jen: jí šlehačku

3. chybné Pospíšil.V ~ 68

[word="[a-b].*"][word="[A-B].*" & tag="V.*" & lemma!="být"]

chybné Pospíšil.N ~ 936

[word="[A-Z].+[tčžšp]il" & tag="NN.*"][word="se|jsem|si|a"]

4. chybná spojka A ~ 194 amperu, clenu, cislovani seznamu

[lc="[0-9]+"][word="A" & tag="J.*"]

5. chybný imperativ ~ 101 pripadu, kdy vetsinou nekdo slabikuje

[word="..." & tag="Vi.*"][word="-"]

6. chybné verb místo adjektiva ala 'zelená' ~ 352

[lemma!="se|jak"][word=".*[vln]ená" & tag="V.*" & lemma!="z[ča].*"][lemma!="se"]

7. chybne RV ~ 266, nebo ala uloha c.1

[tag="RV.*" & lemma="s"][lc="(vě|br|vý).*"]

8. lokal bez predlozky ~ 276

[pos="[V]"][tag="NN..6.*"]

9. nesaturovaná předložka ~ 463 vetsinou chybne OCR

[lemma="s"][tag="N...[13456].*" & word="[a-z].*"]

10. ty zájmeno osobní ale pritom ukazovaci ~ 17922(!)

[word="ty" & tag="PD.*"][tag ="NN.*"]

11. ti zájmeno osobní ale pritom ukazovaci ~ 2933

[word="ti" & tag="PD.*"][tag ="NNMP.*"]

12. akuzativ za nominativ ~ 201

[tag="NN..1.*"][lemma="dostat|dovést|držet|houpat|dělat|mít"][tag="NN..1.*"]

13. vokativ nevokativ ~ 2449

[tag="NN..5.*"][pos!="[ZAP]" & tag!="....5.*"]{5}

14. dvě fin slovesa moc blízko ~ 7414

[tag="V.*" & tag!="V[esf].*" & lemma!="být|mít|bývat"][tag="V.*" & tag!="V[fism].*" & lemma!="být|mít"]

chybí čárky, nebo špatná lematizace

15. cizí slova jako necizí

[tag="Vi.S...2.*" & lemma!=".*(viz|pocem|t|ci)" & word!=".*[ěščřžýáíéňťď].*"] ~ 59
[word="der" & tag="Vi.*"] ~ 21
[tag="Vi.*" & word="[a-z]{0,4}" & word!="zmiz|nech|jdi|vem|jdi|ozvi|zkus|spi|mluv|viz|uhni|dej|hni|zlom|urvi|ubal|zvol|uber"] ~ 2778

16. chyby ve znaceni <s> podle klitik ~ 832

<s>[word="by|mi|ti|se"]

17. spojky nespoky ~ 5947

[pos="J" & word=".*o" & lc!="a?nebo|zatímco|zato|jako|co|proto|.*žto"]

18. chybná segmentace ~ 377

> Query   : <s>[word="by|mi|ti|se"]
> N-filter: [pos="Z"]

nutno rozepsat na dve casti, aby to netrvalo vecnost

19. spatna tokenizace ala ukol c.9

[lemma="s"][tag="N...[13456].*" & word="[a-z].*"]

homework1

 8827 да
 8046 мен
 7475 бұл
 6441 де
 6184 және
 6180 бір
 5979 деп
 5754 қазақ
 4660 бар
 4623 осы
 4485 ал
 4425 деген
 3879 емес
 3750 ол
 3714 өз
 3601 үшін
 3529 жоқ
 3398 керек
 3257 сол
 3219 қазақстан
 3214 оның
 3212 болып
 2827 мемлекеттік
 2650 ғана
 2295 ұлттық
 2259 біз
 2166 болады
 2157 ақ
 2067 бірақ
 2043 отыр
 2022 болса
 1992 ең
 1957 екі
 1841 туралы
 1838 еді
 1805 жылы
 1795 біздің
 1770 көп
 1737 жаңа
 1735 жатқан
 1688 болды
 1654 қазір
 1654 басқа
 1630 болған
 1626 келген
 1600 оны
 1599 пен
 1590 бойынша
 1576 не
 1566 жыл
 1554 алып
 1553 сондықтан
 1544 тек
 1540 олар
 1527 екен
 1512 олардың
 1490 адам
 1459 уақыты
 1388 ел
 1383 кейін
 1372 орыс
 1347 дейін
 1336 тіл
 1332 арқылы
 1321 отырған
 1297 өзі
 1284 жұмыс
 1264 үлкен
 1246 оған
 1243 бас
 1227 саяси
 1221 өткен
 1217 жатыр
 1207 енді
 1174 қажет
 1170 сөз
 1158 қазіргі
 1150 тағы
 1135 ретінде
 1133 қалай
 1107 жалпы
 1105 болатын
 1094 дейді
 1076 келеді
 1066 мемлекет
 1057 барлық
 1052 кезде
 1039 жақсы
 1036 қазақстанның
 1028 өйткені
 1020 сияқты
 1016 мүмкін
 1015 ұлт
 1014 яғни
 1011 халық
 1011 қандай
 1003 егер
 1002 ғой
 1000 сондай
  999 байланысты

[ Back to the navigation ] [ Back to the content ]