[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Last revision Both sides next revision
polo-automaticke-kontroly-dat [2011/06/24 08:06]
mirovsky vytvořeno
polo-automaticke-kontroly-dat [2011/12/13 11:13]
ufal
Line 1: Line 1:
-==== (Polo-)automatické kontroly anotovaných dat ====+===== (Polo-)automatické kontroly anotovaných dat =====
  
-chystané: +==== chystané: ==== 
- - vytvořit tabulku distribuce typů - zkontrolovat, zda je všude typ a zda někde není starý typ; ta místa projít ručně + (HOTOVO) vytvořit tabulku distribuce typů - zkontrolovat, zda je všude typ (informal-type) a zda někde není starý typ; ta místa projít ručně 
- - zkontrolovat, zda je všude nastaven atribut src+ (HOTOVO) zkontrolovat, zda je všude nastaven atribut src a target-node.rf 
 + - (HOTOVO) zkontrolovat, že šipky vedou v řetězci; případně převěsit (skript pro bridging už existuje, podobný už i pro text-coref; akorát ještě vyřešit, když do jednoho uzlu vedou dvě gramatické koref. - ty se nepřevěšují a narušují správnou funkci skriptu) 
 +- zkontrolovat, ze sipky nevedou od uzlu s t-lemmatem #Gen a #Unsp a na uzly s funktorem INTF (pozor, obcas jsou poznamky od JP a RO o chybnem lemmatu) 
 +- (HOTOVO) u dlouhych koreferencnich retezcu propojenych bridgingem nechat jednu bridging sipku, ktera je propojuje. Ostatni smazat 
  
-hotové:+ 
 +==== chystané obsahové==== 
 +1. //podobný X, stejný X, takový X// … (domyslet) – prohledat a sjednotit ANAF a segm 
 +2. vytáhnout koreferenční řetězce, kde se prolínají SPEC a GEN, podívat se na ně a zjistit, jestli má cenu tam něco měnit 
 +3. //u nás//  ve smyslu "v Praze" nebo "v ČR" ne/zařadit do anotace 
 +4. projít rekonstruované NP, vyjádřené slovy a dodělat občas chybějící koreferenci a bridging 
 +5. vyhledat a sjednotit pripady neshody, kde je nejaky  vztah a segm 
 +6 prohledat uzly s funktorem ID - nemely by na ne vest sipky 
 + 
 +==== chystané obsahové, připravené filelisty: ==== 
 +Projit vsechny uzly s daným t-lemmatem a upravit koreferenci: 
 + 
 +- "takto" a "tak" a overit, popr. vyrovnat u nich anotovanou koreferenci/bridging. (Vsech "tak" nebo "takto" uzlu je 974. U 156 z nich zacina textova koreferencni  sipka, u 10 zacina bridging sipka.) 
 + 
 +- "tento + (adj) + podstatne jmeno" /tj. pripad, kdy na substantivu visi "tento", nikoliv kde funguje jako podstatne jmeno samo/ ("tento" visi pod podstatnym jmenem 2586 krat. U jednoho z nich zacina textova koreferencni sipka, u zadneho bridging sipka.) 
 + 
 +- "tady" a "tu" (Vsech "tady", "tu", "tam" a "zde" uzlu je 675. U 441 zacina textova koreferencni sipka, u 6 z nich zacina bridging sipka.) 
 + 
 +- "ten" ("ten" visi pod podstatnym jmenem 652 krat. U 65 z nich zacina textova koreferencni sipka, u 15 zacina bridging sipka.)??? proč tak málo koreferencí?  
 + 
 +- "tentýž", "stejný" ("tentýž" nebo "stejný" visí pod podstatnym jmenem 251 krat. U zadneho nezacina textova koreferencni sipka, u 2 zacina bridging sipka.) 
 + 
 +- "takový", "takovýto", "onaký" ("takový", "takovýto" nebo "onaký" visi pod podstatnym jmenem 370 krat. U 1 z nich zacina textova koreferencni sipka, u 2 zacina bridging sipka.) 
 + 
 +- "jiný" ("jiný" visi pod podstatnym jmenem 559 krat. U zadneho nezacina textova koreferencni sipka, u 10 zacina bridging sipka.) 
 + 
 +==== shoda: ==== 
 +- prepocitat jako shodu pripady, kde bridgingem se odkazuje na stejny koreferencni retezec, ale na ruzne uzly 
 +- spocitat shodu zvlast u pokracujicich koreferencnich retezcu, tj. kde nase koreference doplnuje uz existujici retezec s pronominalni koreferenci 
 + 
 + 
 +===== HOTOVÉ ===== 
 + 
 +==== Distribuce typů + kontrola prázdného typu ==== 
 + 
 +V PML-TQ pomocí dotazu (obdobně pro coref_text): 
 + 
 +''t-node  
 +[ member bridging $n := [  ] ]; 
 +  >> for $n.informal-type give $1,count()'' 
 + 
 +**Výsledek pro bridging (14.11.2011):** 
 + 
 +^ typ ^ četnost ^ 
 +| SET_SUB | 13010 | 
 +| SUB_SUB | 6009 | 
 +| WHOLE_PART | 4502 | 
 +| CONTRAST | 2305 | 
 +| REST | 2246 | 
 +| PART_WHOLE | 2054 | 
 +| P_FUNCT | 1832 | 
 +| ANAF | 840 | 
 +| FUNCT_P | 429 | 
 +| **(prázdný)** | 28 | 
 + 
 +**Výsledek pro coref_text (14.11.2011):** 
 + 
 +^ typ ^ četnost ^ 
 +| SPEC | 70936 | 
 +| GEN | 16264 |  
 +| **(prázdný)** | 5 | 
 + 
 +Identifikátory anaforů, odkud vedou šipky s prázdným typem, se najdou takto (obdobně coref_text): 
 + 
 +''t-node $anaf :=  
 +[ member bridging $n :=  
 +     [ !informal-type ~ ".+" ] ]; 
 +  >> give $anaf.id'' 
 + 
 +==== Distribuce src + kontrola prázdného src a target-node.rf ==== 
 + 
 +V PML-TQ pomocí dotazu (obdobně pro coref_text): 
 + 
 +''t-node  
 +[ member bridging $n := [  ] ]; 
 +  >> for $n.src give $1,count()'' 
 + 
 +**Výsledek pro bridging (14.11.2011):** 
 + 
 +^ src ^ četnost ^ 
 +| JP | 18346 | 
 +| RO | 12782 | 
 +| JK | 606 | 
 +| AN | 310 | 
 +| RO+JP | 863 | 
 +| JP+RO | 341 | 
 +| **(prázdný)** | 7 | 
 + 
 +**Výsledek pro coref_text (14.11.2011):** 
 + 
 +^ src ^ četnost ^ 
 +| PDT_2.0 | 20523 | 
 +| JP | 31791 | 
 +| RO | 27694 | 
 +| JK | 1581 | 
 +| AN | 683 | 
 +| RO+JP | 3492 | 
 +| JP+RO | 1406 | 
 +| **(prázdný)** | 35 | 
 + 
 +Identifikátory anaforů, odkud vedou šipky s prázdným src, se najdou takto (obdobně coref_text): 
 + 
 +''t-node $anaf :=  
 +[ member bridging $n :=  
 +     [ !src ~ ".+" ] ]; 
 +  >> give $anaf.id'' 
 + 
 +Identifikátory anaforů, odkud vedou šipky s prázdným target-node.rf, se najdou takto (obdobně coref_text):   
 +(14.11.2011 jich bylo 0 a 0.) 
 + 
 +''t-node $anaf :=  
 +[ member bridging  
 +     [ 0x target-node.rf t-node [  ] ] ]; 
 +  >> give $anaf.id''
  

[ Back to the navigation ] [ Back to the content ]