[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
polo-automaticke-kontroly-dat [2011/06/24 08:09]
mirovsky
polo-automaticke-kontroly-dat [2011/12/13 11:49] (current)
ufal
Line 2: Line 2:
  
 ==== chystané: ==== ==== chystané: ====
- - vytvořit tabulku distribuce typů - zkontrolovat,​ zda je všude typ (informal-type) a zda někde není starý typ; ta místa projít ručně + ​- ​(HOTOVO) ​vytvořit tabulku distribuce typů - zkontrolovat,​ zda je všude typ (informal-type) a zda někde není starý typ; ta místa projít ručně 
- - zkontrolovat,​ zda je všude nastaven atribut src a target-node.rf + ​- ​(HOTOVO) ​zkontrolovat,​ zda je všude nastaven atribut src a target-node.rf 
- - zkontrolovat,​ že šipky vedou v řetězci; případně převěsit (skript pro bridging už existuje, podobný pro text-coref)+ ​- ​(HOTOVO) ​zkontrolovat,​ že šipky vedou v řetězci; případně převěsit (skript pro bridging už existuje, podobný ​už i pro text-coref; akorát ještě vyřešit, když do jednoho uzlu vedou dvě gramatické koref. - ty se nepřevěšují a narušují správnou funkci skriptu) 
 +- zkontrolovat,​ ze sipky nevedou od uzlu s t-lemmatem #Gen a #Unsp a na uzly s funktorem INTF (pozor, obcas jsou poznamky od JP a RO o chybnem lemmatu) 
 +- (HOTOVO) u dlouhych koreferencnich retezcu propojenych bridgingem nechat jednu bridging sipku, ktera je propojuje. Ostatni smazat ​
  
-==== hotové: ==== 
  
 +==== chystané obsahové: ====
 +1. //​podobný X, stejný X, takový X// … (domyslet) – prohledat a sjednotit ANAF a segm
 +2. vytáhnout koreferenční řetězce, kde se prolínají SPEC a GEN, podívat se na ně a zjistit, jestli má cenu tam něco měnit
 +3. //u nás// ​ ve smyslu "v Praze" nebo "v ČR" ne/zařadit do anotace
 +4. projít rekonstruované NP, vyjádřené slovy a dodělat občas chybějící koreferenci a bridging
 +5. vyhledat a sjednotit pripady neshody, kde je nejaky ​ vztah a segm
 +6 prohledat uzly s funktorem ID - nemely by na ne vest sipky
 +
 +==== chystané obsahové, připravené filelisty: ====
 +Projit vsechny uzly s daným t-lemmatem a upravit koreferenci:​
 +
 +- "​takto"​ a "​tak"​ a overit, popr. vyrovnat u nich anotovanou koreferenci/​bridging. (Vsech "​tak"​ nebo "​takto"​ uzlu je 974. U 156 z nich zacina textova koreferencni ​ sipka, u 10 zacina bridging sipka.)
 +
 +- "tento + (adj) + podstatne jmeno" /tj. pripad, kdy na substantivu visi "​tento",​ nikoliv kde funguje jako podstatne jmeno samo/ ("​tento"​ visi pod podstatnym jmenem 2586 krat. U jednoho z nich zacina textova koreferencni sipka, u zadneho bridging sipka.)
 +
 +- "​tady"​ a "​tu"​ (Vsech "​tady",​ "​tu",​ "​tam"​ a "​zde"​ uzlu je 675. U 441 zacina textova koreferencni sipka, u 6 z nich zacina bridging sipka.)
 +
 +- "​ten"​ ("​ten"​ visi pod podstatnym jmenem 652 krat. U 65 z nich zacina textova koreferencni sipka, u 15 zacina bridging sipka.)??? proč tak málo koreferencí? ​
 +
 +- "​tentýž",​ "​stejný"​ ("​tentýž"​ nebo "​stejný"​ visí pod podstatnym jmenem 251 krat. U zadneho nezacina textova koreferencni sipka, u 2 zacina bridging sipka.)
 +
 +- "​takový",​ "​takovýto",​ "​onaký"​ ("​takový",​ "​takovýto"​ nebo "​onaký"​ visi pod podstatnym jmenem 370 krat. U 1 z nich zacina textova koreferencni sipka, u 2 zacina bridging sipka.)
 +
 +- "​jiný"​ ("​jiný"​ visi pod podstatnym jmenem 559 krat. U zadneho nezacina textova koreferencni sipka, u 10 zacina bridging sipka.)
 +
 +==== shoda: ====
 +- prepocitat jako shodu pripady, kde bridgingem se odkazuje na stejny koreferencni retezec, ale na ruzne uzly
 +- spocitat shodu zvlast u pokracujicich koreferencnich retezcu, tj. kde nase koreference doplnuje uz existujici retezec s pronominalni koreferenci
 +
 +
 +===== HOTOVÉ =====
 +
 +==== Distribuce typů + kontrola prázdného typu ====
 +
 +V PML-TQ pomocí dotazu (obdobně pro coref_text):​
 +
 +''​t-node ​
 +[ member bridging $n := [  ] ];
 +  >> for $n.informal-type give $1,​count()''​
 +
 +**Výsledek pro bridging (14.11.2011):​**
 +
 +^ typ ^ četnost ^
 +| SET_SUB | 13010 |
 +| SUB_SUB | 6009 |
 +| WHOLE_PART | 4502 |
 +| CONTRAST | 2305 |
 +| REST | 2246 |
 +| PART_WHOLE | 2054 |
 +| P_FUNCT | 1832 |
 +| ANAF | 840 |
 +| FUNCT_P | 429 |
 +| **(prázdný)** | 28 |
 +
 +**Výsledek pro coref_text (14.11.2011):​**
 +
 +^ typ ^ četnost ^
 +| SPEC | 70936 |
 +| GEN | 16264 | 
 +| **(prázdný)** | 5 |
 +
 +Identifikátory anaforů, odkud vedou šipky s prázdným typem, se najdou takto (obdobně coref_text):​
 +
 +''​t-node $anaf := 
 +[ member bridging $n := 
 +     [ !informal-type ~ "​.+"​ ] ];
 +  >> give $anaf.id''​
 +
 +==== Distribuce src + kontrola prázdného src a target-node.rf ====
 +
 +V PML-TQ pomocí dotazu (obdobně pro coref_text):​
 +
 +''​t-node ​
 +[ member bridging $n := [  ] ];
 +  >> for $n.src give $1,​count()''​
 +
 +**Výsledek pro bridging (14.11.2011):​**
 +
 +^ src ^ četnost ^
 +| JP | 18346 |
 +| RO | 12782 |
 +| JK | 606 |
 +| AN | 310 |
 +| RO+JP | 863 |
 +| JP+RO | 341 |
 +| **(prázdný)** | 7 |
 +
 +**Výsledek pro coref_text (14.11.2011):​**
 +
 +^ src ^ četnost ^
 +| PDT_2.0 | 20523 |
 +| JP | 31791 |
 +| RO | 27694 |
 +| JK | 1581 |
 +| AN | 683 |
 +| RO+JP | 3492 |
 +| JP+RO | 1406 |
 +| **(prázdný)** | 35 |
 +
 +Identifikátory anaforů, odkud vedou šipky s prázdným src, se najdou takto (obdobně coref_text):​
 +
 +''​t-node $anaf := 
 +[ member bridging $n := 
 +     [ !src ~ "​.+"​ ] ];
 +  >> give $anaf.id''​
 +
 +Identifikátory anaforů, odkud vedou šipky s prázdným target-node.rf,​ se najdou takto (obdobně coref_text):  ​
 +(14.11.2011 jich bylo 0 a 0.)
 +
 +''​t-node $anaf := 
 +[ member bridging ​
 +     [ 0x target-node.rf t-node [  ] ] ];
 +  >> give $anaf.id''​
 +
 +==== Hledání dvou (a více) paralelních bridging šipek ====
 +
 +V PMLTQ dotazem:
 +
 +''​t-node $n := 
 +[ member bridging ​
 +     [ target-node.rf $n4 ], 
 +     ​member bridging ​
 +     [ target-node.rf t-node $n4 := [  ] ] ];
 +  >> give distinct $n.id''​
 +
 +13. prosince se našlo 28 výskytů, ručně jsem vyřešil.

[ Back to the navigation ] [ Back to the content ]