[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
polo-automaticke-kontroly-dat [2011/10/24 12:00]
ufal
polo-automaticke-kontroly-dat [2011/12/13 11:13]
ufal
Line 2: Line 2:
  
 ==== chystané: ==== ==== chystané: ====
- - vytvořit tabulku distribuce typů - zkontrolovat,​ zda je všude typ (informal-type) a zda někde není starý typ; ta místa projít ručně + ​- ​(HOTOVO) ​vytvořit tabulku distribuce typů - zkontrolovat,​ zda je všude typ (informal-type) a zda někde není starý typ; ta místa projít ručně 
- - zkontrolovat,​ zda je všude nastaven atribut src a target-node.rf + ​- ​(HOTOVO) ​zkontrolovat,​ zda je všude nastaven atribut src a target-node.rf 
- - zkontrolovat,​ že šipky vedou v řetězci; případně převěsit (skript pro bridging už existuje, podobný pro text-coref)+ ​- ​(HOTOVO) ​zkontrolovat,​ že šipky vedou v řetězci; případně převěsit (skript pro bridging už existuje, podobný ​už i pro text-coref; akorát ještě vyřešit, když do jednoho uzlu vedou dvě gramatické koref. - ty se nepřevěšují a narušují správnou funkci skriptu) 
 +- zkontrolovat,​ ze sipky nevedou od uzlu s t-lemmatem #Gen a #Unsp a na uzly s funktorem INTF (pozor, obcas jsou poznamky od JP a RO o chybnem lemmatu) 
 +- (HOTOVO) u dlouhych koreferencnich retezcu propojenych bridgingem nechat jednu bridging sipku, ktera je propojuje. Ostatni smazat  
  
 ==== chystané obsahové: ==== ==== chystané obsahové: ====
Line 11: Line 14:
 3. //u nás// ​ ve smyslu "v Praze" nebo "v ČR" ne/zařadit do anotace 3. //u nás// ​ ve smyslu "v Praze" nebo "v ČR" ne/zařadit do anotace
 4. projít rekonstruované NP, vyjádřené slovy a dodělat občas chybějící koreferenci a bridging 4. projít rekonstruované NP, vyjádřené slovy a dodělat občas chybějící koreferenci a bridging
 +5. vyhledat a sjednotit pripady neshody, kde je nejaky ​ vztah a segm
 +6 prohledat uzly s funktorem ID - nemely by na ne vest sipky
  
-==== chystané obsahové připravené filelisty: ==== +==== chystané obsahovépřipravené filelisty: ==== 
-Projit vsechny uzly s daným t-lemmatem a upravit koreferenci+Projit vsechny uzly s daným t-lemmatem a upravit koreferenci:
  
 - "​takto"​ a "​tak"​ a overit, popr. vyrovnat u nich anotovanou koreferenci/​bridging. (Vsech "​tak"​ nebo "​takto"​ uzlu je 974. U 156 z nich zacina textova koreferencni ​ sipka, u 10 zacina bridging sipka.) - "​takto"​ a "​tak"​ a overit, popr. vyrovnat u nich anotovanou koreferenci/​bridging. (Vsech "​tak"​ nebo "​takto"​ uzlu je 974. U 156 z nich zacina textova koreferencni ​ sipka, u 10 zacina bridging sipka.)
Line 29: Line 34:
 - "​jiný"​ ("​jiný"​ visi pod podstatnym jmenem 559 krat. U zadneho nezacina textova koreferencni sipka, u 10 zacina bridging sipka.) - "​jiný"​ ("​jiný"​ visi pod podstatnym jmenem 559 krat. U zadneho nezacina textova koreferencni sipka, u 10 zacina bridging sipka.)
  
 +==== shoda: ====
 +- prepocitat jako shodu pripady, kde bridgingem se odkazuje na stejny koreferencni retezec, ale na ruzne uzly
 +- spocitat shodu zvlast u pokracujicich koreferencnich retezcu, tj. kde nase koreference doplnuje uz existujici retezec s pronominalni koreferenci
 +
 +
 +===== HOTOVÉ =====
 +
 +==== Distribuce typů + kontrola prázdného typu ====
 +
 +V PML-TQ pomocí dotazu (obdobně pro coref_text):​
 +
 +''​t-node ​
 +[ member bridging $n := [  ] ];
 +  >> for $n.informal-type give $1,​count()''​
 +
 +**Výsledek pro bridging (14.11.2011):​**
 +
 +^ typ ^ četnost ^
 +| SET_SUB | 13010 |
 +| SUB_SUB | 6009 |
 +| WHOLE_PART | 4502 |
 +| CONTRAST | 2305 |
 +| REST | 2246 |
 +| PART_WHOLE | 2054 |
 +| P_FUNCT | 1832 |
 +| ANAF | 840 |
 +| FUNCT_P | 429 |
 +| **(prázdný)** | 28 |
 +
 +**Výsledek pro coref_text (14.11.2011):​**
 +
 +^ typ ^ četnost ^
 +| SPEC | 70936 |
 +| GEN | 16264 | 
 +| **(prázdný)** | 5 |
 +
 +Identifikátory anaforů, odkud vedou šipky s prázdným typem, se najdou takto (obdobně coref_text):​
 +
 +''​t-node $anaf := 
 +[ member bridging $n := 
 +     [ !informal-type ~ "​.+"​ ] ];
 +  >> give $anaf.id''​
 +
 +==== Distribuce src + kontrola prázdného src a target-node.rf ====
 +
 +V PML-TQ pomocí dotazu (obdobně pro coref_text):​
 +
 +''​t-node ​
 +[ member bridging $n := [  ] ];
 +  >> for $n.src give $1,​count()''​
 +
 +**Výsledek pro bridging (14.11.2011):​**
 +
 +^ src ^ četnost ^
 +| JP | 18346 |
 +| RO | 12782 |
 +| JK | 606 |
 +| AN | 310 |
 +| RO+JP | 863 |
 +| JP+RO | 341 |
 +| **(prázdný)** | 7 |
 +
 +**Výsledek pro coref_text (14.11.2011):​**
 +
 +^ src ^ četnost ^
 +| PDT_2.0 | 20523 |
 +| JP | 31791 |
 +| RO | 27694 |
 +| JK | 1581 |
 +| AN | 683 |
 +| RO+JP | 3492 |
 +| JP+RO | 1406 |
 +| **(prázdný)** | 35 |
 +
 +Identifikátory anaforů, odkud vedou šipky s prázdným src, se najdou takto (obdobně coref_text):​
 +
 +''​t-node $anaf := 
 +[ member bridging $n := 
 +     [ !src ~ "​.+"​ ] ];
 +  >> give $anaf.id''​
 +
 +Identifikátory anaforů, odkud vedou šipky s prázdným target-node.rf,​ se najdou takto (obdobně coref_text):  ​
 +(14.11.2011 jich bylo 0 a 0.)
  
-==== hotové: ====+''​t-node $anaf :=  
 +[ member bridging  
 +     [ 0x target-node.rf t-node [  ] ] ]; 
 +  >> give $anaf.id''​
  

[ Back to the navigation ] [ Back to the content ]