[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
user:ptacek:zdenek-pfl070 [2008/04/23 15:57]
ptacek
user:ptacek:zdenek-pfl070 [2008/04/23 16:12]
ptacek
Line 1: Line 1:
 +====== homework2 ======
 +
 +napsáno česky: nevim
 +mluvena produkce: 10^7 lidi krat 10^7rocne jeden clovek (200slov za minutu, 2h denne mluvi ~ 25.000)
 +
 +homework: milion slov, korpus z jazyka:
 +udelat frekvencni seznam
 +
 +cat text | sed "s/ /\n/g" | grep '[aeiouy'] | grep -v '....' | sort | uniq -c | head 20
 +
 +prvni stranku frekvencniho seznamu pro jazyk 
 +plus prezentace
 +
 +
 +1. bonito chybne se.RV: 
 +<code>[lemma!="se"][tag="VpN.*" & lemma!="být|probíhat|souviset"][lemma="s" & tag="RV.*"]</code>
 +
 +1. bonito chybne se.P
 +<code>[lemma="se" & word="se"][tag="A...7.*|N...7.*" & lc="[sšz].*"]</code>
 +Počet výskytů: 4564
 +
 +2. **chybné jí.V** jsou vpodstatě všechny ~ 500
 +<code>[word="jí" & tag="V.*"][tag!="....4.*"]</code>
 +opačně minimálně našel jsem jen: jí šlehačku
 +
 +3. **chybné Pospíšil.V** ~ 68
 +<code>[word="[a-b].*"][word="[A-B].*" & tag="V.*" & lemma!="být"]</code>
 +**chybné Pospíšil.N** ~ 936
 +<code>[word="[A-Z].+[tčžšp]il" & tag="NN.*"][word="se|jsem|si|a"]</code>
 +
 +4. **chybná spojka A** ~ 194 amperu, clenu, cislovani seznamu
 +<code>[lc="[0-9]+"][word="A" & tag="J.*"]</code>
 +
 +5. **chybný imperativ** ~ 101 pripadu, kdy vetsinou nekdo slabikuje
 +<code>[word="..." & tag="Vi.*"][word="-"]</code>
 +
 +6. **chybné verb místo adjektiva ala 'zelená'** ~ 352
 +<code>[lemma!="se|jak"][word=".*[vln]ená" & tag="V.*" & lemma!="z[ča].*"][lemma!="se"]</code>
 +
 +7. ** chybne RV ** ~ 266, nebo ala uloha c.1
 +<code>[tag="RV.*" & lemma="s"][lc="(vě|br|vý).*"]</code>
 +
 +8. ** lokal bez predlozky ** ~ 276
 +<code>[pos="[V]"][tag="NN..6.*"]</code>
 +
 +9. ** nesaturovaná předložka** ~ 463 vetsinou chybne OCR
 +<code>[lemma="s"][tag="N...[13456].*" & word="[a-z].*"]</code>
 +
 +10. **ty** zájmeno osobní ale pritom ukazovaci ~ 17922(!)
 +<code>[word="ty" & tag="PD.*"][tag ="NN.*"]</code>
 +
 +11. **ti** zájmeno osobní ale pritom ukazovaci ~ 2933
 +<code>[word="ti" & tag="PD.*"][tag ="NNMP.*"]</code>
 +
 +12. ** akuzativ za nominativ ** ~ 201
 +<code>[tag="NN..1.*"][lemma="dostat|dovést|držet|houpat|dělat|mít"][tag="NN..1.*"]</code>
 +
 +13. ** vokativ nevokativ** ~ 2449
 +<code>[tag="NN..5.*"][pos!="[ZAP]" & tag!="....5.*"]{5}</code>
 +
 +14. ** dvě fin slovesa moc blízko** ~ 7414
 +<code>[tag="V.*" & tag!="V[esf].*" & lemma!="být|mít|bývat"][tag="V.*" & tag!="V[fism].*" & lemma!="být|mít"]</code>
 +chybí čárky, nebo špatná lematizace
 +
 +15. ** cizí slova jako necizí **
 +<code>[tag="Vi.S...2.*" & lemma!=".*(viz|pocem|t|ci)" & word!=".*[ěščřžýáíéňťď].*"] ~ 59</code>
 +<code>[word="der" & tag="Vi.*"] ~ 21</code>
 +<code>[tag="Vi.*" & word="[a-z]{0,4}" & word!="zmiz|nech|jdi|vem|jdi|ozvi|zkus|spi|mluv|viz|uhni|dej|hni|zlom|urvi|ubal|zvol|uber"] ~ 2778</code>
 +
 +16. ** chyby ve znaceni <s> podle klitik ** ~ 832
 +<code><s>[word="by|mi|ti|se"]</code>
 +
 +17. ** spojky nespoky ** ~ 5947
 +<code>[pos="J" & word=".*o" & lc!="a?nebo|zatímco|zato|jako|co|proto|.*žto"]</code>
 +
 +18. ** chybná segmentace ** ~ 377
 +<code>
 +> Query   : <s>[word="by|mi|ti|se"]
 +> N-filter: [pos="Z"]
 +</code>
 +nutno rozepsat na dve casti, aby to netrvalo vecnost
 +
 +19. ** spatna tokenizace ** ala ukol c.9
 +<code>[lemma="s"][tag="N...[13456].*" & word="[a-z].*"]</code>
 +
 +
 ====== homework1 ====== ====== homework1 ======
  
Line 101: Line 187:
    1000 сондай    1000 сондай
     999 байланысты     999 байланысты
- 
- 
- 
- 
- 
- 
- 
-====== homework2 ====== 
- 
-napsáno česky: nevim 
-mluvena produkce: 10^7 lidi krat 10^7rocne jeden clovek (200slov za minutu, 2h denne mluvi ~ 25.000) 
- 
-homework: milion slov, korpus z jazyka: 
-udelat frekvencni seznam 
- 
-cat text | sed "s/ /\n/g" | grep '[aeiouy'] | grep -v '....' | sort | uniq -c | head 20 
- 
-prvni stranku frekvencniho seznamu pro jazyk  
-plus prezentace 
- 
- 
-1. bonito chybne se.RV:  
-<code>[lemma!="se"][tag="VpN.*" & lemma!="být|probíhat|souviset"][lemma="s" & tag="RV.*"]</code> 
- 
-1. bonito chybne se.P 
-<code>[lemma="se" & word="se"][tag="A...7.*|N...7.*" & lc="[sšz].*"]</code> 
-Počet výskytů: 4564 
- 
-2. **chybné jí.V** jsou vpodstatě všechny ~ 500 
-<code>[word="jí" & tag="V.*"][tag!="....4.*"]</code> 
-opačně minimálně našel jsem jen: jí šlehačku 
- 
-3. **chybné Pospíšil.V** ~ 68 
-<code>[word="[a-b].*"][word="[A-B].*" & tag="V.*" & lemma!="být"]</code> 
-**chybné Pospíšil.N** ~ 936 
-<code>[word="[A-Z].+[tčžšp]il" & tag="NN.*"][word="se|jsem|si|a"]</code> 
- 
-4. **chybná spojka A** ~ 194 amperu, clenu, cislovani seznamu 
-<code>[lc="[0-9]+"][word="A" & tag="J.*"]</code> 
- 
-5. **chybný imperativ** ~ 101 pripadu, kdy vetsinou nekdo slabikuje 
-<code>[word="..." & tag="Vi.*"][word="-"]</code> 
- 
-6. **chybné verb místo adjektiva ala 'zelená'** ~ 352 
-<code>[lemma!="se|jak"][word=".*[vln]ená" & tag="V.*" & lemma!="z[ča].*"][lemma!="se"]</code> 
- 
-7. ** ** 
-<code></code> 
- 
-8. ** ** 
-<code></code> 
- 
-9. ** nesaturovaná předložka** ~ 463 vetsinou chybne OCR 
-<code>[lemma="s"][tag="N...[13456].*" & word="[a-z].*"]</code> 
- 
-10. **ty** zájmeno osobní ale pritom ukazovaci ~ 17922(!) 
-<code>[word="ty" & tag="PD.*"][tag ="NN.*"]</code> 
- 
-11. **ti** zájmeno osobní ale pritom ukazovaci ~ 2933 
-<code>[word="ti" & tag="PD.*"][tag ="NNMP.*"]</code> 
- 
-12. ** akuzativ za nominativ ** ~ 201 
-<code>[tag="NN..1.*"][lemma="dostat|dovést|držet|houpat|dělat|mít"][tag="NN..1.*"]</code> 
- 
-13. ** vokativ nevokativ** ~ 2449 
-<code>[tag="NN..5.*"][pos!="[ZAP]" & tag!="....5.*"]{5}</code> 
- 
-14. ** dvě fin slovesa moc blízko** ~ 7414 
-<code>[tag="V.*" & tag!="V[esf].*" & lemma!="být|mít|bývat"][tag="V.*" & tag!="V[fism].*" & lemma!="být|mít"]</code> 
-chybí čárky, nebo špatná lematizace 
- 
-15. ** cizí slova jako necizí ** 
-<code>[tag="Vi.S...2.*" & lemma!=".*(viz|pocem|t|ci)" & word!=".*[ěščřžýáíéňťď].*"] ~ 59</code> 
-<code>[word="der" & tag="Vi.*"] ~ 21</code> 
-<code>[tag="Vi.*" & word="[a-z]{0,4}" & word!="zmiz|nech|jdi|vem|jdi|ozvi|zkus|spi|mluv|viz|uhni|dej|hni|zlom|urvi|ubal|zvol|uber"] ~ 2778</code> 
- 
-16. ** chyby ve znaceni <s> podle klitik ** ~ 832 
-<code><s>[word="by|mi|ti|se"]</code> 
- 
-17. ** spojky nespoky ** ~ 5947 
-<code>[pos="J" & word=".*o" & lc!="a?nebo|zatímco|zato|jako|co|proto|.*žto"]</code> 
- 
-18. ** chybná segmentace ** ~ 377 
-<code> 
-> Query   : <s>[word="by|mi|ti|se"] 
-> N-filter: [pos="Z"] 
-</code> 
-nutno rozepsat na dve casti, aby to netrvalo vecnost 
- 
-19. ** spatna tokenizace ** ala ukol c.9 
-<code>[lemma="s"][tag="N...[13456].*" & word="[a-z].*"]</code> 

[ Back to the navigation ] [ Back to the content ]