[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
user:ptacek:zdenek-pfl070 [2007/10/23 10:12]
ptacek vytvořeno
user:ptacek:zdenek-pfl070 [2008/04/23 16:13] (current)
ptacek
Line 1: Line 1:
 +====== homework2 ======
  
 +1. bonito chybne se.RV: 
 +<code>[lemma!="se"][tag="VpN.*" & lemma!="být|probíhat|souviset"][lemma="s" & tag="RV.*"]</code>
  
 +1. bonito chybne se.P
 +<code>[lemma="se" & word="se"][tag="A...7.*|N...7.*" & lc="[sšz].*"]</code>
 +Počet výskytů: 4564
  
 +2. **chybné jí.V** jsou vpodstatě všechny ~ 500
 +<code>[word="jí" & tag="V.*"][tag!="....4.*"]</code>
 +opačně minimálně našel jsem jen: jí šlehačku
 +
 +3. **chybné Pospíšil.V** ~ 68
 +<code>[word="[a-b].*"][word="[A-B].*" & tag="V.*" & lemma!="být"]</code>
 +**chybné Pospíšil.N** ~ 936
 +<code>[word="[A-Z].+[tčžšp]il" & tag="NN.*"][word="se|jsem|si|a"]</code>
 +
 +4. **chybná spojka A** ~ 194 amperu, clenu, cislovani seznamu
 +<code>[lc="[0-9]+"][word="A" & tag="J.*"]</code>
 +
 +5. **chybný imperativ** ~ 101 pripadu, kdy vetsinou nekdo slabikuje
 +<code>[word="..." & tag="Vi.*"][word="-"]</code>
 +
 +6. **chybné verb místo adjektiva ala 'zelená'** ~ 352
 +<code>[lemma!="se|jak"][word=".*[vln]ená" & tag="V.*" & lemma!="z[ča].*"][lemma!="se"]</code>
 +
 +7. ** chybne RV ** ~ 266, nebo ala uloha c.1
 +<code>[tag="RV.*" & lemma="s"][lc="(vě|br|vý).*"]</code>
 +
 +8. ** lokal bez predlozky ** ~ 276
 +<code>[pos="[V]"][tag="NN..6.*"]</code>
 +
 +9. ** nesaturovaná předložka** ~ 463 vetsinou chybne OCR
 +<code>[lemma="s"][tag="N...[13456].*" & word="[a-z].*"]</code>
 +
 +10. **ty** zájmeno osobní ale pritom ukazovaci ~ 17922(!)
 +<code>[word="ty" & tag="PD.*"][tag ="NN.*"]</code>
 +
 +11. **ti** zájmeno osobní ale pritom ukazovaci ~ 2933
 +<code>[word="ti" & tag="PD.*"][tag ="NNMP.*"]</code>
 +
 +12. ** akuzativ za nominativ ** ~ 201
 +<code>[tag="NN..1.*"][lemma="dostat|dovést|držet|houpat|dělat|mít"][tag="NN..1.*"]</code>
 +
 +13. ** vokativ nevokativ** ~ 2449
 +<code>[tag="NN..5.*"][pos!="[ZAP]" & tag!="....5.*"]{5}</code>
 +
 +14. ** dvě fin slovesa moc blízko** ~ 7414
 +<code>[tag="V.*" & tag!="V[esf].*" & lemma!="být|mít|bývat"][tag="V.*" & tag!="V[fism].*" & lemma!="být|mít"]</code>
 +chybí čárky, nebo špatná lematizace
 +
 +15. ** cizí slova jako necizí **
 +<code>[tag="Vi.S...2.*" & lemma!=".*(viz|pocem|t|ci)" & word!=".*[ěščřžýáíéňťď].*"] ~ 59</code>
 +<code>[word="der" & tag="Vi.*"] ~ 21</code>
 +<code>[tag="Vi.*" & word="[a-z]{0,4}" & word!="zmiz|nech|jdi|vem|jdi|ozvi|zkus|spi|mluv|viz|uhni|dej|hni|zlom|urvi|ubal|zvol|uber"] ~ 2778</code>
 +
 +16. ** chyby ve znaceni <s> podle klitik ** ~ 832
 +<code><s>[word="by|mi|ti|se"]</code>
 +
 +17. ** spojky nespoky ** ~ 5947
 +<code>[pos="J" & word=".*o" & lc!="a?nebo|zatímco|zato|jako|co|proto|.*žto"]</code>
 +
 +18. ** chybná segmentace ** ~ 377
 +<code>
 +> Query   : <s>[word="by|mi|ti|se"]
 +> N-filter: [pos="Z"]
 +</code>
 +nutno rozepsat na dve casti, aby to netrvalo vecnost
 +
 +19. ** spatna tokenizace ** ala ukol c.9
 +<code>[lemma="s"][tag="N...[13456].*" & word="[a-z].*"]</code>
 +
 +
 +====== homework1 ======
 +
 +   8827 да
 +   8046 мен
 +   7475 бұл
 +   6441 де
 +   6184 және
 +   6180 бір
 +   5979 деп
 +   5754 қазақ
 +   4660 бар
 +   4623 осы
 +   4485 ал
 +   4425 деген
 +   3879 емес
 +   3750 ол
 +   3714 өз
 +   3601 үшін
 +   3529 жоқ
 +   3398 керек
 +   3257 сол
 +   3219 қазақстан
 +   3214 оның
 +   3212 болып
 +   2827 мемлекеттік
 +   2650 ғана
 +   2295 ұлттық
 +   2259 біз
 +   2166 болады
 +   2157 ақ
 +   2067 бірақ
 +   2043 отыр
 +   2022 болса
 +   1992 ең
 +   1957 екі
 +   1841 туралы
 +   1838 еді
 +   1805 жылы
 +   1795 біздің
 +   1770 көп
 +   1737 жаңа
 +   1735 жатқан
 +   1688 болды
 +   1654 қазір
 +   1654 басқа
 +   1630 болған
 +   1626 келген
 +   1600 оны
 +   1599 пен
 +   1590 бойынша
 +   1576 не
 +   1566 жыл
 +   1554 алып
 +   1553 сондықтан
 +   1544 тек
 +   1540 олар
 +   1527 екен
 +   1512 олардың
 +   1490 адам
 +   1459 уақыты
 +   1388 ел
 +   1383 кейін
 +   1372 орыс
 +   1347 дейін
 +   1336 тіл
 +   1332 арқылы
 +   1321 отырған
 +   1297 өзі
 +   1284 жұмыс
 +   1264 үлкен
 +   1246 оған
 +   1243 бас
 +   1227 саяси
 +   1221 өткен
 +   1217 жатыр
 +   1207 енді
 +   1174 қажет
 +   1170 сөз
 +   1158 қазіргі
 +   1150 тағы
 +   1135 ретінде
 +   1133 қалай
 +   1107 жалпы
 +   1105 болатын
 +   1094 дейді
 +   1076 келеді
 +   1066 мемлекет
 +   1057 барлық
 +   1052 кезде
 +   1039 жақсы
 +   1036 қазақстанның
 +   1028 өйткені
 +   1020 сияқты
 +   1016 мүмкін
 +   1015 ұлт
 +   1014 яғни
 +   1011 халық
 +   1011 қандай
 +   1003 егер
 +   1002 ғой
 +   1000 сондай
 +    999 байланысты
 +
 +====== poznamky ======
  
 napsáno česky: nevim napsáno česky: nevim
 mluvena produkce: 10^7 lidi krat 10^7rocne jeden clovek (200slov za minutu, 2h denne mluvi ~ 25.000) mluvena produkce: 10^7 lidi krat 10^7rocne jeden clovek (200slov za minutu, 2h denne mluvi ~ 25.000)
 +
 +homework: milion slov, korpus z jazyka:
 +udelat frekvencni seznam
 +
 +cat text | sed "s/ /\n/g" | grep '[aeiouy'] | grep -v '....' | sort | uniq -c | head 20
 +
 +prvni stranku frekvencniho seznamu pro jazyk 
 +plus prezentace
 +

[ Back to the navigation ] [ Back to the content ]