[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
polo-automaticke-kontroly-dat [2011/06/24 08:09]
mirovsky
polo-automaticke-kontroly-dat [2011/12/13 11:13]
ufal
Line 2: Line 2:
  
 ==== chystané: ==== ==== chystané: ====
- - vytvořit tabulku distribuce typů - zkontrolovat, zda je všude typ (informal-type) a zda někde není starý typ; ta místa projít ručně + (HOTOVO) vytvořit tabulku distribuce typů - zkontrolovat, zda je všude typ (informal-type) a zda někde není starý typ; ta místa projít ručně 
- - zkontrolovat, zda je všude nastaven atribut src a target-node.rf + (HOTOVO) zkontrolovat, zda je všude nastaven atribut src a target-node.rf 
- - zkontrolovat, že šipky vedou v řetězci; případně převěsit (skript pro bridging už existuje, podobný pro text-coref)+ (HOTOVO) zkontrolovat, že šipky vedou v řetězci; případně převěsit (skript pro bridging už existuje, podobný už i pro text-coref; akorát ještě vyřešit, když do jednoho uzlu vedou dvě gramatické koref. - ty se nepřevěšují a narušují správnou funkci skriptu) 
 +- zkontrolovat, ze sipky nevedou od uzlu s t-lemmatem #Gen a #Unsp a na uzly s funktorem INTF (pozor, obcas jsou poznamky od JP a RO o chybnem lemmatu) 
 +- (HOTOVO) u dlouhych koreferencnich retezcu propojenych bridgingem nechat jednu bridging sipku, ktera je propojuje. Ostatni smazat 
  
-==== hotové: ====+ 
 +==== chystané obsahové: ==== 
 +1. //podobný X, stejný X, takový X// … (domyslet) – prohledat a sjednotit ANAF a segm 
 +2. vytáhnout koreferenční řetězce, kde se prolínají SPEC a GEN, podívat se na ně a zjistit, jestli má cenu tam něco měnit 
 +3. //u nás//  ve smyslu "v Praze" nebo "v ČR" ne/zařadit do anotace 
 +4. projít rekonstruované NP, vyjádřené slovy a dodělat občas chybějící koreferenci a bridging 
 +5. vyhledat a sjednotit pripady neshody, kde je nejaky  vztah a segm 
 +6 prohledat uzly s funktorem ID - nemely by na ne vest sipky 
 + 
 +==== chystané obsahové, připravené filelisty: ==== 
 +Projit vsechny uzly s daným t-lemmatem a upravit koreferenci: 
 + 
 +- "takto" a "tak" a overit, popr. vyrovnat u nich anotovanou koreferenci/bridging. (Vsech "tak" nebo "takto" uzlu je 974. U 156 z nich zacina textova koreferencni  sipka, u 10 zacina bridging sipka.) 
 + 
 +- "tento + (adj) + podstatne jmeno" /tj. pripad, kdy na substantivu visi "tento", nikoliv kde funguje jako podstatne jmeno samo/ ("tento" visi pod podstatnym jmenem 2586 krat. U jednoho z nich zacina textova koreferencni sipka, u zadneho bridging sipka.) 
 + 
 +- "tady" a "tu" (Vsech "tady", "tu", "tam" a "zde" uzlu je 675. U 441 zacina textova koreferencni sipka, u 6 z nich zacina bridging sipka.) 
 + 
 +- "ten" ("ten" visi pod podstatnym jmenem 652 krat. U 65 z nich zacina textova koreferencni sipka, u 15 zacina bridging sipka.)??? proč tak málo koreferencí?  
 + 
 +- "tentýž", "stejný" ("tentýž" nebo "stejný" visí pod podstatnym jmenem 251 krat. U zadneho nezacina textova koreferencni sipka, u 2 zacina bridging sipka.) 
 + 
 +- "takový", "takovýto", "onaký" ("takový", "takovýto" nebo "onaký" visi pod podstatnym jmenem 370 krat. U 1 z nich zacina textova koreferencni sipka, u 2 zacina bridging sipka.) 
 + 
 +- "jiný" ("jiný" visi pod podstatnym jmenem 559 krat. U zadneho nezacina textova koreferencni sipka, u 10 zacina bridging sipka.) 
 + 
 +==== shoda: ==== 
 +- prepocitat jako shodu pripady, kde bridgingem se odkazuje na stejny koreferencni retezec, ale na ruzne uzly 
 +- spocitat shodu zvlast u pokracujicich koreferencnich retezcu, tj. kde nase koreference doplnuje uz existujici retezec s pronominalni koreferenci 
 + 
 + 
 +===== HOTOVÉ ===== 
 + 
 +==== Distribuce typů + kontrola prázdného typu ==== 
 + 
 +V PML-TQ pomocí dotazu (obdobně pro coref_text): 
 + 
 +''t-node  
 +[ member bridging $n := [  ] ]; 
 +  >> for $n.informal-type give $1,count()'' 
 + 
 +**Výsledek pro bridging (14.11.2011):** 
 + 
 +^ typ ^ četnost ^ 
 +| SET_SUB | 13010 | 
 +| SUB_SUB | 6009 | 
 +| WHOLE_PART | 4502 | 
 +| CONTRAST | 2305 | 
 +| REST | 2246 | 
 +| PART_WHOLE | 2054 | 
 +| P_FUNCT | 1832 | 
 +| ANAF | 840 | 
 +| FUNCT_P | 429 | 
 +| **(prázdný)** | 28 | 
 + 
 +**Výsledek pro coref_text (14.11.2011):** 
 + 
 +^ typ ^ četnost ^ 
 +| SPEC | 70936 | 
 +| GEN | 16264 |  
 +| **(prázdný)** | 5 | 
 + 
 +Identifikátory anaforů, odkud vedou šipky s prázdným typem, se najdou takto (obdobně coref_text): 
 + 
 +''t-node $anaf :=  
 +[ member bridging $n :=  
 +     [ !informal-type ~ ".+" ] ]; 
 +  >> give $anaf.id'' 
 + 
 +==== Distribuce src + kontrola prázdného src a target-node.rf ==== 
 + 
 +V PML-TQ pomocí dotazu (obdobně pro coref_text): 
 + 
 +''t-node  
 +[ member bridging $n := [  ] ]; 
 +  >> for $n.src give $1,count()'' 
 + 
 +**Výsledek pro bridging (14.11.2011):** 
 + 
 +^ src ^ četnost ^ 
 +| JP | 18346 | 
 +| RO | 12782 | 
 +| JK | 606 | 
 +| AN | 310 | 
 +| RO+JP | 863 | 
 +| JP+RO | 341 | 
 +| **(prázdný)** | 7 | 
 + 
 +**Výsledek pro coref_text (14.11.2011):** 
 + 
 +^ src ^ četnost ^ 
 +| PDT_2.0 | 20523 | 
 +| JP | 31791 | 
 +| RO | 27694 | 
 +| JK | 1581 | 
 +| AN | 683 | 
 +| RO+JP | 3492 | 
 +| JP+RO | 1406 | 
 +| **(prázdný)** | 35 | 
 + 
 +Identifikátory anaforů, odkud vedou šipky s prázdným src, se najdou takto (obdobně coref_text): 
 + 
 +''t-node $anaf :=  
 +[ member bridging $n :=  
 +     [ !src ~ ".+" ] ]; 
 +  >> give $anaf.id'' 
 + 
 +Identifikátory anaforů, odkud vedou šipky s prázdným target-node.rf, se najdou takto (obdobně coref_text):   
 +(14.11.2011 jich bylo 0 a 0.) 
 + 
 +''t-node $anaf :=  
 +[ member bridging  
 +     [ 0x target-node.rf t-node [  ] ] ]; 
 +  >> give $anaf.id''
  

[ Back to the navigation ] [ Back to the content ]