[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
user:ptacek:zdenek-pfl070 [2007/10/23 10:12]
ptacek vytvořeno
user:ptacek:zdenek-pfl070 [2007/11/11 00:47]
ptacek
Line 1: Line 1:
 +====== homework1 ======
  
 +   8827 да
 +   8046 мен
 +   7475 бұл
 +   6441 де
 +   6184 және
 +   6180 бір
 +   5979 деп
 +   5754 қазақ
 +   4660 бар
 +   4623 осы
 +   4485 ал
 +   4425 деген
 +   3879 емес
 +   3750 ол
 +   3714 өз
 +   3601 үшін
 +   3529 жоқ
 +   3398 керек
 +   3257 сол
 +   3219 қазақстан
 +   3214 оның
 +   3212 болып
 +   2827 мемлекеттік
 +   2650 ғана
 +   2295 ұлттық
 +   2259 біз
 +   2166 болады
 +   2157 ақ
 +   2067 бірақ
 +   2043 отыр
 +   2022 болса
 +   1992 ең
 +   1957 екі
 +   1841 туралы
 +   1838 еді
 +   1805 жылы
 +   1795 біздің
 +   1770 көп
 +   1737 жаңа
 +   1735 жатқан
 +   1688 болды
 +   1654 қазір
 +   1654 басқа
 +   1630 болған
 +   1626 келген
 +   1600 оны
 +   1599 пен
 +   1590 бойынша
 +   1576 не
 +   1566 жыл
 +   1554 алып
 +   1553 сондықтан
 +   1544 тек
 +   1540 олар
 +   1527 екен
 +   1512 олардың
 +   1490 адам
 +   1459 уақыты
 +   1388 ел
 +   1383 кейін
 +   1372 орыс
 +   1347 дейін
 +   1336 тіл
 +   1332 арқылы
 +   1321 отырған
 +   1297 өзі
 +   1284 жұмыс
 +   1264 үлкен
 +   1246 оған
 +   1243 бас
 +   1227 саяси
 +   1221 өткен
 +   1217 жатыр
 +   1207 енді
 +   1174 қажет
 +   1170 сөз
 +   1158 қазіргі
 +   1150 тағы
 +   1135 ретінде
 +   1133 қалай
 +   1107 жалпы
 +   1105 болатын
 +   1094 дейді
 +   1076 келеді
 +   1066 мемлекет
 +   1057 барлық
 +   1052 кезде
 +   1039 жақсы
 +   1036 қазақстанның
 +   1028 өйткені
 +   1020 сияқты
 +   1016 мүмкін
 +   1015 ұлт
 +   1014 яғни
 +   1011 халық
 +   1011 қандай
 +   1003 егер
 +   1002 ғой
 +   1000 сондай
 +    999 байланысты
  
  
 +====== homework2 ======
 +
 +bonito chybne se.RV: 
 +<code>[lemma!="se"][tag="VpN.*" & lemma!="být|probíhat|souviset"][lemma="s" & tag="RV.*"]</code>
 +
 +bonito chybne se.P
 +<code>[lemma="se" & word="se"][tag="A...7.*|N...7.*" & lc="[sšz].*"]</code>
 +Počet výskytů: 4564
  
 napsáno česky: nevim napsáno česky: nevim
 mluvena produkce: 10^7 lidi krat 10^7rocne jeden clovek (200slov za minutu, 2h denne mluvi ~ 25.000) mluvena produkce: 10^7 lidi krat 10^7rocne jeden clovek (200slov za minutu, 2h denne mluvi ~ 25.000)
 +
 +homework: milion slov, korpus z jazyka:
 +udelat frekvencni seznam
 +
 +cat text | sed "s/ /\n/g" | grep '[aeiouy'] | grep -v '....' | sort | uniq -c | head 20
 +
 +prvni stranku frekvencniho seznamu pro jazyk 
 +plus prezentace

[ Back to the navigation ] [ Back to the content ]