[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:ptacek:zdenek-pfl070 [2007/11/11 00:46]
ptacek
user:ptacek:zdenek-pfl070 [2008/04/23 16:12]
ptacek
Line 1: Line 1:
 ====== homework1 ====== ====== homework1 ======
  
- 8827 да+   8827 да
    8046 мен    8046 мен
    7475 бұл    7475 бұл
Line 103: Line 103:
  
  
-====== homework2 ====== 
  
-bonito chybne se.RV:  
-<code>[lemma!="se"][tag="VpN.*" & lemma!="být|probíhat|souviset"][lemma="s" & tag="RV.*"]</code> 
  
-bonito chybne se.P + 
-<code>[lemma="se" & word="se"][tag="A...7.*|N...7.*" & lc="[sšz].*"]</code> + 
-Počet výskytů: 4564+ 
 +====== homework2 ======
  
 napsáno česky: nevim napsáno česky: nevim
Line 122: Line 120:
 prvni stranku frekvencniho seznamu pro jazyk  prvni stranku frekvencniho seznamu pro jazyk 
 plus prezentace plus prezentace
 +
 +
 +1. bonito chybne se.RV: 
 +<code>[lemma!="se"][tag="VpN.*" & lemma!="být|probíhat|souviset"][lemma="s" & tag="RV.*"]</code>
 +
 +1. bonito chybne se.P
 +<code>[lemma="se" & word="se"][tag="A...7.*|N...7.*" & lc="[sšz].*"]</code>
 +Počet výskytů: 4564
 +
 +2. **chybné jí.V** jsou vpodstatě všechny ~ 500
 +<code>[word="jí" & tag="V.*"][tag!="....4.*"]</code>
 +opačně minimálně našel jsem jen: jí šlehačku
 +
 +3. **chybné Pospíšil.V** ~ 68
 +<code>[word="[a-b].*"][word="[A-B].*" & tag="V.*" & lemma!="být"]</code>
 +**chybné Pospíšil.N** ~ 936
 +<code>[word="[A-Z].+[tčžšp]il" & tag="NN.*"][word="se|jsem|si|a"]</code>
 +
 +4. **chybná spojka A** ~ 194 amperu, clenu, cislovani seznamu
 +<code>[lc="[0-9]+"][word="A" & tag="J.*"]</code>
 +
 +5. **chybný imperativ** ~ 101 pripadu, kdy vetsinou nekdo slabikuje
 +<code>[word="..." & tag="Vi.*"][word="-"]</code>
 +
 +6. **chybné verb místo adjektiva ala 'zelená'** ~ 352
 +<code>[lemma!="se|jak"][word=".*[vln]ená" & tag="V.*" & lemma!="z[ča].*"][lemma!="se"]</code>
 +
 +7. ** chybne RV ** ~ 266, nebo ala uloha c.1
 +<code>[tag="RV.*" & lemma="s"][lc="(vě|br|vý).*"]</code>
 +
 +8. ** lokal bez predlozky ** ~ 276
 +<code>[pos="[V]"][tag="NN..6.*"]</code>
 +
 +9. ** nesaturovaná předložka** ~ 463 vetsinou chybne OCR
 +<code>[lemma="s"][tag="N...[13456].*" & word="[a-z].*"]</code>
 +
 +10. **ty** zájmeno osobní ale pritom ukazovaci ~ 17922(!)
 +<code>[word="ty" & tag="PD.*"][tag ="NN.*"]</code>
 +
 +11. **ti** zájmeno osobní ale pritom ukazovaci ~ 2933
 +<code>[word="ti" & tag="PD.*"][tag ="NNMP.*"]</code>
 +
 +12. ** akuzativ za nominativ ** ~ 201
 +<code>[tag="NN..1.*"][lemma="dostat|dovést|držet|houpat|dělat|mít"][tag="NN..1.*"]</code>
 +
 +13. ** vokativ nevokativ** ~ 2449
 +<code>[tag="NN..5.*"][pos!="[ZAP]" & tag!="....5.*"]{5}</code>
 +
 +14. ** dvě fin slovesa moc blízko** ~ 7414
 +<code>[tag="V.*" & tag!="V[esf].*" & lemma!="být|mít|bývat"][tag="V.*" & tag!="V[fism].*" & lemma!="být|mít"]</code>
 +chybí čárky, nebo špatná lematizace
 +
 +15. ** cizí slova jako necizí **
 +<code>[tag="Vi.S...2.*" & lemma!=".*(viz|pocem|t|ci)" & word!=".*[ěščřžýáíéňťď].*"] ~ 59</code>
 +<code>[word="der" & tag="Vi.*"] ~ 21</code>
 +<code>[tag="Vi.*" & word="[a-z]{0,4}" & word!="zmiz|nech|jdi|vem|jdi|ozvi|zkus|spi|mluv|viz|uhni|dej|hni|zlom|urvi|ubal|zvol|uber"] ~ 2778</code>
 +
 +16. ** chyby ve znaceni <s> podle klitik ** ~ 832
 +<code><s>[word="by|mi|ti|se"]</code>
 +
 +17. ** spojky nespoky ** ~ 5947
 +<code>[pos="J" & word=".*o" & lc!="a?nebo|zatímco|zato|jako|co|proto|.*žto"]</code>
 +
 +18. ** chybná segmentace ** ~ 377
 +<code>
 +> Query   : <s>[word="by|mi|ti|se"]
 +> N-filter: [pos="Z"]
 +</code>
 +nutno rozepsat na dve casti, aby to netrvalo vecnost
 +
 +19. ** spatna tokenizace ** ala ukol c.9
 +<code>[lemma="s"][tag="N...[13456].*" & word="[a-z].*"]</code>

[ Back to the navigation ] [ Back to the content ]