[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Last revision Both sides next revision
user:ptacek:zdenek-pfl070 [2007/10/23 10:12]
ptacek vytvořeno
user:ptacek:zdenek-pfl070 [2008/04/23 16:12]
ptacek
Line 1: Line 1:
 +====== homework2 ======
  
 +napsáno česky: nevim
 +mluvena produkce: 10^7 lidi krat 10^7rocne jeden clovek (200slov za minutu, 2h denne mluvi ~ 25.000)
  
 +homework: milion slov, korpus z jazyka:
 +udelat frekvencni seznam
  
 +cat text | sed "s/ /\n/g" | grep '[aeiouy'] | grep -v '....' | sort | uniq -c | head 20
  
-napsáno českynevim +prvni stranku frekvencniho seznamu pro jazyk  
-mluvena produkce10^lidi krat 10^7rocne jeden clovek (200slov za minutu, 2h denne mluvi 25.000)+plus prezentace 
 + 
 + 
 +1. bonito chybne se.RV:  
 +<code>[lemma!="se"][tag="VpN.*" & lemma!="být|probíhat|souviset"][lemma="s" & tag="RV.*"]</code> 
 + 
 +1. bonito chybne se.P 
 +<code>[lemma="se" & word="se"][tag="A...7.*|N...7.*" & lc="[sšz].*"]</code> 
 +Počet výskytů4564 
 + 
 +2. **chybné jí.V** jsou vpodstatě všechny ~ 500 
 +<code>[word="jí" & tag="V.*"][tag!="....4.*"]</code> 
 +opačně minimálně našel jsem jenjí šlehačku 
 + 
 +3. **chybné Pospíšil.V** ~ 68 
 +<code>[word="[a-b].*"][word="[A-B].*" & tag="V.*" & lemma!="být"]</code> 
 +**chybné Pospíšil.N** ~ 936 
 +<code>[word="[A-Z].+[tčžšp]il" & tag="NN.*"][word="se|jsem|si|a"]</code> 
 + 
 +4. **chybná spojka A** ~ 194 amperu, clenu, cislovani seznamu 
 +<code>[lc="[0-9]+"][word="A" & tag="J.*"]</code> 
 + 
 +5. **chybný imperativ** ~ 101 pripadu, kdy vetsinou nekdo slabikuje 
 +<code>[word="..." & tag="Vi.*"][word="-"]</code> 
 + 
 +6. **chybné verb místo adjektiva ala 'zelená'** ~ 352 
 +<code>[lemma!="se|jak"][word=".*[vln]ená" & tag="V.*" & lemma!="z[ča].*"][lemma!="se"]</code> 
 + 
 +7. ** chybne RV ** ~ 266, nebo ala uloha c.1 
 +<code>[tag="RV.*" & lemma="s"][lc="(vě|br|vý).*"]</code> 
 + 
 +8. ** lokal bez predlozky ** ~ 276 
 +<code>[pos="[V]"][tag="NN..6.*"]</code> 
 + 
 +9. ** nesaturovaná předložka** ~ 463 vetsinou chybne OCR 
 +<code>[lemma="s"][tag="N...[13456].*" & word="[a-z].*"]</code> 
 + 
 +10. **ty** zájmeno osobní ale pritom ukazovaci ~ 17922(!) 
 +<code>[word="ty" & tag="PD.*"][tag ="NN.*"]</code> 
 + 
 +11. **ti** zájmeno osobní ale pritom ukazovaci ~ 2933 
 +<code>[word="ti" & tag="PD.*"][tag ="NNMP.*"]</code> 
 + 
 +12. ** akuzativ za nominativ ** 201 
 +<code>[tag="NN..1.*"][lemma="dostat|dovést|držet|houpat|dělat|mít"][tag="NN..1.*"]</code> 
 + 
 +13. ** vokativ nevokativ** ~ 2449 
 +<code>[tag="NN..5.*"][pos!="[ZAP]" & tag!="....5.*"]{5}</code> 
 + 
 +14. ** dvě fin slovesa moc blízko** ~ 7414 
 +<code>[tag="V.*" & tag!="V[esf].*" & lemma!="být|mít|bývat"][tag="V.*" & tag!="V[fism].*" & lemma!="být|mít"]</code> 
 +chybí čárky, nebo špatná lematizace 
 + 
 +15. ** cizí slova jako necizí ** 
 +<code>[tag="Vi.S...2.*" & lemma!=".*(viz|pocem|t|ci)" & word!=".*[ěščřžýáíéňťď].*"] ~ 59</code> 
 +<code>[word="der" & tag="Vi.*"] ~ 21</code> 
 +<code>[tag="Vi.*" & word="[a-z]{0,4}" & word!="zmiz|nech|jdi|vem|jdi|ozvi|zkus|spi|mluv|viz|uhni|dej|hni|zlom|urvi|ubal|zvol|uber"] ~ 2778</code> 
 + 
 +16. ** chyby ve znaceni <s> podle klitik ** ~ 832 
 +<code><s>[word="by|mi|ti|se"]</code> 
 + 
 +17. ** spojky nespoky ** ~ 5947 
 +<code>[pos="J" & word=".*o" & lc!="a?nebo|zatímco|zato|jako|co|proto|.*žto"]</code> 
 + 
 +18. ** chybná segmentace ** ~ 377 
 +<code> 
 +> Query   : <s>[word="by|mi|ti|se"
 +> N-filter: [pos="Z"
 +</code> 
 +nutno rozepsat na dve casti, aby to netrvalo vecnost 
 + 
 +19. ** spatna tokenizace ** ala ukol c.9 
 +<code>[lemma="s"][tag="N...[13456].*" & word="[a-z].*"]</code> 
 + 
 + 
 +====== homework1 ====== 
 + 
 +   8827 да 
 +   8046 мен 
 +   7475 бұл 
 +   6441 де 
 +   6184 және 
 +   6180 бір 
 +   5979 деп 
 +   5754 қазақ 
 +   4660 бар 
 +   4623 осы 
 +   4485 ал 
 +   4425 деген 
 +   3879 емес 
 +   3750 ол 
 +   3714 өз 
 +   3601 үшін 
 +   3529 жоқ 
 +   3398 керек 
 +   3257 сол 
 +   3219 қазақстан 
 +   3214 оның 
 +   3212 болып 
 +   2827 мемлекеттік 
 +   2650 ғана 
 +   2295 ұлттық 
 +   2259 біз 
 +   2166 болады 
 +   2157 ақ 
 +   2067 бірақ 
 +   2043 отыр 
 +   2022 болса 
 +   1992 ең 
 +   1957 екі 
 +   1841 туралы 
 +   1838 еді 
 +   1805 жылы 
 +   1795 біздің 
 +   1770 көп 
 +   1737 жаңа 
 +   1735 жатқан 
 +   1688 болды 
 +   1654 қазір 
 +   1654 басқа 
 +   1630 болған 
 +   1626 келген 
 +   1600 оны 
 +   1599 пен 
 +   1590 бойынша 
 +   1576 не 
 +   1566 жыл 
 +   1554 алып 
 +   1553 сондықтан 
 +   1544 тек 
 +   1540 олар 
 +   1527 екен 
 +   1512 олардың 
 +   1490 адам 
 +   1459 уақыты 
 +   1388 ел 
 +   1383 кейін 
 +   1372 орыс 
 +   1347 дейін 
 +   1336 тіл 
 +   1332 арқылы 
 +   1321 отырған 
 +   1297 өзі 
 +   1284 жұмыс 
 +   1264 үлкен 
 +   1246 оған 
 +   1243 бас 
 +   1227 саяси 
 +   1221 өткен 
 +   1217 жатыр 
 +   1207 енді 
 +   1174 қажет 
 +   1170 сөз 
 +   1158 қазіргі 
 +   1150 тағы 
 +   1135 ретінде 
 +   1133 қалай 
 +   1107 жалпы 
 +   1105 болатын 
 +   1094 дейді 
 +   1076 келеді 
 +   1066 мемлекет 
 +   1057 барлық 
 +   1052 кезде 
 +   1039 жақсы 
 +   1036 қазақстанның 
 +   1028 өйткені 
 +   1020 сияқты 
 +   1016 мүмкін 
 +   1015 ұлт 
 +   1014 яғни 
 +   1011 халық 
 +   1011 қандай 
 +   1003 егер 
 +   1002 ғой 
 +   1000 сондай 
 +    999 байланысты

[ Back to the navigation ] [ Back to the content ]