[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Last revision Both sides next revision
user:ptacek:zdenek-pfl070 [2008/04/23 16:12]
ptacek
user:ptacek:zdenek-pfl070 [2008/04/23 16:12]
ptacek
Line 1: Line 1:
 +====== homework2 ======
 +
 +napsáno česky: nevim
 +mluvena produkce: 10^7 lidi krat 10^7rocne jeden clovek (200slov za minutu, 2h denne mluvi ~ 25.000)
 +
 +homework: milion slov, korpus z jazyka:
 +udelat frekvencni seznam
 +
 +cat text | sed "s/ /\n/g" | grep '​[aeiouy'​] | grep -v '​....'​ | sort | uniq -c | head 20
 +
 +prvni stranku frekvencniho seznamu pro jazyk 
 +plus prezentace
 +
 +
 +1. bonito chybne se.RV: ​
 +<​code>​[lemma!="​se"​][tag="​VpN.*"​ & lemma!="​být|probíhat|souviset"​][lemma="​s"​ & tag="​RV.*"​]</​code>​
 +
 +1. bonito chybne se.P
 +<​code>​[lemma="​se"​ & word="​se"​][tag="​A...7.*|N...7.*"​ & lc="​[sšz].*"​]</​code>​
 +Počet výskytů: 4564
 +
 +2. **chybné jí.V** jsou vpodstatě všechny ~ 500
 +<​code>​[word="​jí"​ & tag="​V.*"​][tag!="​....4.*"​]</​code>​
 +opačně minimálně našel jsem jen: jí šlehačku
 +
 +3. **chybné Pospíšil.V** ~ 68
 +<​code>​[word="​[a-b].*"​][word="​[A-B].*"​ & tag="​V.*"​ & lemma!="​být"​]</​code>​
 +**chybné Pospíšil.N** ~ 936
 +<​code>​[word="​[A-Z].+[tčžšp]il"​ & tag="​NN.*"​][word="​se|jsem|si|a"​]</​code>​
 +
 +4. **chybná spojka A** ~ 194 amperu, clenu, cislovani seznamu
 +<​code>​[lc="​[0-9]+"​][word="​A"​ & tag="​J.*"​]</​code>​
 +
 +5. **chybný imperativ** ~ 101 pripadu, kdy vetsinou nekdo slabikuje
 +<​code>​[word="​..."​ & tag="​Vi.*"​][word="​-"​]</​code>​
 +
 +6. **chybné verb místo adjektiva ala '​zelená'​** ~ 352
 +<​code>​[lemma!="​se|jak"​][word="​.*[vln]ená"​ & tag="​V.*"​ & lemma!="​z[ča].*"​][lemma!="​se"​]</​code>​
 +
 +7. ** chybne RV ** ~ 266, nebo ala uloha c.1
 +<​code>​[tag="​RV.*"​ & lemma="​s"​][lc="​(vě|br|vý).*"​]</​code>​
 +
 +8. ** lokal bez predlozky ** ~ 276
 +<​code>​[pos="​[V]"​][tag="​NN..6.*"​]</​code>​
 +
 +9. ** nesaturovaná předložka** ~ 463 vetsinou chybne OCR
 +<​code>​[lemma="​s"​][tag="​N...[13456].*"​ & word="​[a-z].*"​]</​code>​
 +
 +10. **ty** zájmeno osobní ale pritom ukazovaci ~ 17922(!)
 +<​code>​[word="​ty"​ & tag="​PD.*"​][tag ="​NN.*"​]</​code>​
 +
 +11. **ti** zájmeno osobní ale pritom ukazovaci ~ 2933
 +<​code>​[word="​ti"​ & tag="​PD.*"​][tag ="​NNMP.*"​]</​code>​
 +
 +12. ** akuzativ za nominativ ** ~ 201
 +<​code>​[tag="​NN..1.*"​][lemma="​dostat|dovést|držet|houpat|dělat|mít"​][tag="​NN..1.*"​]</​code>​
 +
 +13. ** vokativ nevokativ** ~ 2449
 +<​code>​[tag="​NN..5.*"​][pos!="​[ZAP]"​ & tag!="​....5.*"​]{5}</​code>​
 +
 +14. ** dvě fin slovesa moc blízko** ~ 7414
 +<​code>​[tag="​V.*"​ & tag!="​V[esf].*"​ & lemma!="​být|mít|bývat"​][tag="​V.*"​ & tag!="​V[fism].*"​ & lemma!="​být|mít"​]</​code>​
 +chybí čárky, nebo špatná lematizace
 +
 +15. ** cizí slova jako necizí **
 +<​code>​[tag="​Vi.S...2.*"​ & lemma!="​.*(viz|pocem|t|ci)"​ & word!="​.*[ěščřžýáíéňťď].*"​] ~ 59</​code>​
 +<​code>​[word="​der"​ & tag="​Vi.*"​] ~ 21</​code>​
 +<​code>​[tag="​Vi.*"​ & word="​[a-z]{0,​4}"​ & word!="​zmiz|nech|jdi|vem|jdi|ozvi|zkus|spi|mluv|viz|uhni|dej|hni|zlom|urvi|ubal|zvol|uber"​] ~ 2778</​code>​
 +
 +16. ** chyby ve znaceni <s> podle klitik ** ~ 832
 +<​code><​s>​[word="​by|mi|ti|se"​]</​code>​
 +
 +17. ** spojky nespoky ** ~ 5947
 +<​code>​[pos="​J"​ & word="​.*o"​ & lc!="​a?​nebo|zatímco|zato|jako|co|proto|.*žto"​]</​code>​
 +
 +18. ** chybná segmentace ** ~ 377
 +<​code>​
 +> Query   : <​s>​[word="​by|mi|ti|se"​]
 +> N-filter: [pos="​Z"​]
 +</​code>​
 +nutno rozepsat na dve casti, aby to netrvalo vecnost
 +
 +19. ** spatna tokenizace ** ala ukol c.9
 +<​code>​[lemma="​s"​][tag="​N...[13456].*"​ & word="​[a-z].*"​]</​code>​
 +
 +
 ====== homework1 ====== ====== homework1 ======
  
Line 101: Line 187:
    1000 сондай    1000 сондай
     999 байланысты     999 байланысты
- 
- 
- 
- 
- 
- 
- 
-====== homework2 ====== 
- 
-napsáno česky: nevim 
-mluvena produkce: 10^7 lidi krat 10^7rocne jeden clovek (200slov za minutu, 2h denne mluvi ~ 25.000) 
- 
-homework: milion slov, korpus z jazyka: 
-udelat frekvencni seznam 
- 
-cat text | sed "s/ /\n/g" | grep '​[aeiouy'​] | grep -v '​....'​ | sort | uniq -c | head 20 
- 
-prvni stranku frekvencniho seznamu pro jazyk  
-plus prezentace 
- 
- 
-1. bonito chybne se.RV: ​ 
-<​code>​[lemma!="​se"​][tag="​VpN.*"​ & lemma!="​být|probíhat|souviset"​][lemma="​s"​ & tag="​RV.*"​]</​code>​ 
- 
-1. bonito chybne se.P 
-<​code>​[lemma="​se"​ & word="​se"​][tag="​A...7.*|N...7.*"​ & lc="​[sšz].*"​]</​code>​ 
-Počet výskytů: 4564 
- 
-2. **chybné jí.V** jsou vpodstatě všechny ~ 500 
-<​code>​[word="​jí"​ & tag="​V.*"​][tag!="​....4.*"​]</​code>​ 
-opačně minimálně našel jsem jen: jí šlehačku 
- 
-3. **chybné Pospíšil.V** ~ 68 
-<​code>​[word="​[a-b].*"​][word="​[A-B].*"​ & tag="​V.*"​ & lemma!="​být"​]</​code>​ 
-**chybné Pospíšil.N** ~ 936 
-<​code>​[word="​[A-Z].+[tčžšp]il"​ & tag="​NN.*"​][word="​se|jsem|si|a"​]</​code>​ 
- 
-4. **chybná spojka A** ~ 194 amperu, clenu, cislovani seznamu 
-<​code>​[lc="​[0-9]+"​][word="​A"​ & tag="​J.*"​]</​code>​ 
- 
-5. **chybný imperativ** ~ 101 pripadu, kdy vetsinou nekdo slabikuje 
-<​code>​[word="​..."​ & tag="​Vi.*"​][word="​-"​]</​code>​ 
- 
-6. **chybné verb místo adjektiva ala '​zelená'​** ~ 352 
-<​code>​[lemma!="​se|jak"​][word="​.*[vln]ená"​ & tag="​V.*"​ & lemma!="​z[ča].*"​][lemma!="​se"​]</​code>​ 
- 
-7. ** chybne RV ** ~ 266, nebo ala uloha c.1 
-<​code>​[tag="​RV.*"​ & lemma="​s"​][lc="​(vě|br|vý).*"​]</​code>​ 
- 
-8. ** lokal bez predlozky ** ~ 276 
-<​code>​[pos="​[V]"​][tag="​NN..6.*"​]</​code>​ 
- 
-9. ** nesaturovaná předložka** ~ 463 vetsinou chybne OCR 
-<​code>​[lemma="​s"​][tag="​N...[13456].*"​ & word="​[a-z].*"​]</​code>​ 
- 
-10. **ty** zájmeno osobní ale pritom ukazovaci ~ 17922(!) 
-<​code>​[word="​ty"​ & tag="​PD.*"​][tag ="​NN.*"​]</​code>​ 
- 
-11. **ti** zájmeno osobní ale pritom ukazovaci ~ 2933 
-<​code>​[word="​ti"​ & tag="​PD.*"​][tag ="​NNMP.*"​]</​code>​ 
- 
-12. ** akuzativ za nominativ ** ~ 201 
-<​code>​[tag="​NN..1.*"​][lemma="​dostat|dovést|držet|houpat|dělat|mít"​][tag="​NN..1.*"​]</​code>​ 
- 
-13. ** vokativ nevokativ** ~ 2449 
-<​code>​[tag="​NN..5.*"​][pos!="​[ZAP]"​ & tag!="​....5.*"​]{5}</​code>​ 
- 
-14. ** dvě fin slovesa moc blízko** ~ 7414 
-<​code>​[tag="​V.*"​ & tag!="​V[esf].*"​ & lemma!="​být|mít|bývat"​][tag="​V.*"​ & tag!="​V[fism].*"​ & lemma!="​být|mít"​]</​code>​ 
-chybí čárky, nebo špatná lematizace 
- 
-15. ** cizí slova jako necizí ** 
-<​code>​[tag="​Vi.S...2.*"​ & lemma!="​.*(viz|pocem|t|ci)"​ & word!="​.*[ěščřžýáíéňťď].*"​] ~ 59</​code>​ 
-<​code>​[word="​der"​ & tag="​Vi.*"​] ~ 21</​code>​ 
-<​code>​[tag="​Vi.*"​ & word="​[a-z]{0,​4}"​ & word!="​zmiz|nech|jdi|vem|jdi|ozvi|zkus|spi|mluv|viz|uhni|dej|hni|zlom|urvi|ubal|zvol|uber"​] ~ 2778</​code>​ 
- 
-16. ** chyby ve znaceni <s> podle klitik ** ~ 832 
-<​code><​s>​[word="​by|mi|ti|se"​]</​code>​ 
- 
-17. ** spojky nespoky ** ~ 5947 
-<​code>​[pos="​J"​ & word="​.*o"​ & lc!="​a?​nebo|zatímco|zato|jako|co|proto|.*žto"​]</​code>​ 
- 
-18. ** chybná segmentace ** ~ 377 
-<​code>​ 
-> Query   : <​s>​[word="​by|mi|ti|se"​] 
-> N-filter: [pos="​Z"​] 
-</​code>​ 
-nutno rozepsat na dve casti, aby to netrvalo vecnost 
- 
-19. ** spatna tokenizace ** ala ukol c.9 
-<​code>​[lemma="​s"​][tag="​N...[13456].*"​ & word="​[a-z].*"​]</​code>​ 

[ Back to the navigation ] [ Back to the content ]