[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Table of Contents

(Polo-)automatické kontroly anotovaných dat

chystané:

- (HOTOVO) vytvořit tabulku distribuce typů - zkontrolovat, zda je všude typ (informal-type) a zda někde není starý typ; ta místa projít ručně
- (HOTOVO) zkontrolovat, zda je všude nastaven atribut src a target-node.rf
- (HOTOVO) zkontrolovat, že šipky vedou v řetězci; případně převěsit (skript pro bridging už existuje, podobný už i pro text-coref; akorát ještě vyřešit, když do jednoho uzlu vedou dvě gramatické koref. - ty se nepřevěšují a narušují správnou funkci skriptu)
- zkontrolovat, ze sipky nevedou od uzlu s t-lemmatem #Gen a #Unsp a na uzly s funktorem INTF (pozor, obcas jsou poznamky od JP a RO o chybnem lemmatu)
- (HOTOVO) u dlouhych koreferencnich retezcu propojenych bridgingem nechat jednu bridging sipku, ktera je propojuje. Ostatni smazat

chystané obsahové:

1. podobný X, stejný X, takový X … (domyslet) – prohledat a sjednotit ANAF a segm
2. vytáhnout koreferenční řetězce, kde se prolínají SPEC a GEN, podívat se na ně a zjistit, jestli má cenu tam něco měnit
3. u nás ve smyslu “v Praze” nebo “v ČR” ne/zařadit do anotace
4. projít rekonstruované NP, vyjádřené slovy a dodělat občas chybějící koreferenci a bridging
5. vyhledat a sjednotit pripady neshody, kde je nejaky vztah a segm
6 prohledat uzly s funktorem ID - nemely by na ne vest sipky

chystané obsahové, připravené filelisty:

Projit vsechny uzly s daným t-lemmatem a upravit koreferenci:

- “takto” a “tak” a overit, popr. vyrovnat u nich anotovanou koreferenci/bridging. (Vsech “tak” nebo “takto” uzlu je 974. U 156 z nich zacina textova koreferencni sipka, u 10 zacina bridging sipka.)

- “tento + (adj) + podstatne jmeno” /tj. pripad, kdy na substantivu visi “tento”, nikoliv kde funguje jako podstatne jmeno samo/ (“tento” visi pod podstatnym jmenem 2586 krat. U jednoho z nich zacina textova koreferencni sipka, u zadneho bridging sipka.)

- “tady” a “tu” (Vsech “tady”, “tu”, “tam” a “zde” uzlu je 675. U 441 zacina textova koreferencni sipka, u 6 z nich zacina bridging sipka.)

- “ten” (“ten” visi pod podstatnym jmenem 652 krat. U 65 z nich zacina textova koreferencni sipka, u 15 zacina bridging sipka.)??? proč tak málo koreferencí?

- “tentýž”, “stejný” (“tentýž” nebo “stejný” visí pod podstatnym jmenem 251 krat. U zadneho nezacina textova koreferencni sipka, u 2 zacina bridging sipka.)

- “takový”, “takovýto”, “onaký” (“takový”, “takovýto” nebo “onaký” visi pod podstatnym jmenem 370 krat. U 1 z nich zacina textova koreferencni sipka, u 2 zacina bridging sipka.)

- “jiný” (“jiný” visi pod podstatnym jmenem 559 krat. U zadneho nezacina textova koreferencni sipka, u 10 zacina bridging sipka.)

shoda:

- prepocitat jako shodu pripady, kde bridgingem se odkazuje na stejny koreferencni retezec, ale na ruzne uzly
- spocitat shodu zvlast u pokracujicich koreferencnich retezcu, tj. kde nase koreference doplnuje uz existujici retezec s pronominalni koreferenci

HOTOVÉ

Distribuce typů + kontrola prázdného typu

V PML-TQ pomocí dotazu (obdobně pro coref_text):

t-node
[ member bridging $n := [ ] ];
» for $n.informal-type give $1,count()

Výsledek pro bridging (14.11.2011):

typ četnost
SET_SUB 13010
SUB_SUB 6009
WHOLE_PART 4502
CONTRAST 2305
REST 2246
PART_WHOLE 2054
P_FUNCT 1832
ANAF 840
FUNCT_P 429
(prázdný) 28

Výsledek pro coref_text (14.11.2011):

typ četnost
SPEC 70936
GEN 16264
(prázdný) 5

Identifikátory anaforů, odkud vedou šipky s prázdným typem, se najdou takto (obdobně coref_text):

t-node $anaf :=
[ member bridging $n :=
[ !informal-type ~ “.+” ] ];
» give $anaf.id

Distribuce src + kontrola prázdného src a target-node.rf

V PML-TQ pomocí dotazu (obdobně pro coref_text):

t-node
[ member bridging $n := [ ] ];
» for $n.src give $1,count()

Výsledek pro bridging (14.11.2011):

src četnost
JP 18346
RO 12782
JK 606
AN 310
RO+JP 863
JP+RO 341
(prázdný) 7

Výsledek pro coref_text (14.11.2011):

src četnost
PDT_2.0 20523
JP 31791
RO 27694
JK 1581
AN 683
RO+JP 3492
JP+RO 1406
(prázdný) 35

Identifikátory anaforů, odkud vedou šipky s prázdným src, se najdou takto (obdobně coref_text):

t-node $anaf :=
[ member bridging $n :=
[ !src ~ “.+” ] ];
» give $anaf.id

Identifikátory anaforů, odkud vedou šipky s prázdným target-node.rf, se najdou takto (obdobně coref_text):
(14.11.2011 jich bylo 0 a 0.)

t-node $anaf :=
[ member bridging
[ 0x target-node.rf t-node [ ] ] ];
» give $anaf.id

Hledání dvou (a více) paralelních bridging šipek

V PMLTQ dotazem:

t-node $n :=
[ member bridging
[ target-node.rf $n4 ],
member bridging
[ target-node.rf t-node $n4 := [ ] ] ];
» give distinct $n.id

13. prosince se našlo 28 výskytů, ručně jsem vyřešil.


[ Back to the navigation ] [ Back to the content ]