===== (Polo-)automatické kontroly anotovaných dat ===== ==== chystané: ==== - (HOTOVO) vytvořit tabulku distribuce typů - zkontrolovat, zda je všude typ (informal-type) a zda někde není starý typ; ta místa projít ručně - (HOTOVO) zkontrolovat, zda je všude nastaven atribut src a target-node.rf - (HOTOVO) zkontrolovat, že šipky vedou v řetězci; případně převěsit (skript pro bridging už existuje, podobný už i pro text-coref; akorát ještě vyřešit, když do jednoho uzlu vedou dvě gramatické koref. - ty se nepřevěšují a narušují správnou funkci skriptu) - zkontrolovat, ze sipky nevedou od uzlu s t-lemmatem #Gen a #Unsp a na uzly s funktorem INTF (pozor, obcas jsou poznamky od JP a RO o chybnem lemmatu) - (HOTOVO) u dlouhych koreferencnich retezcu propojenych bridgingem nechat jednu bridging sipku, ktera je propojuje. Ostatni smazat ==== chystané obsahové: ==== 1. //podobný X, stejný X, takový X// … (domyslet) – prohledat a sjednotit ANAF a segm 2. vytáhnout koreferenční řetězce, kde se prolínají SPEC a GEN, podívat se na ně a zjistit, jestli má cenu tam něco měnit 3. //u nás// ve smyslu "v Praze" nebo "v ČR" ne/zařadit do anotace 4. projít rekonstruované NP, vyjádřené slovy a dodělat občas chybějící koreferenci a bridging 5. vyhledat a sjednotit pripady neshody, kde je nejaky vztah a segm 6 prohledat uzly s funktorem ID - nemely by na ne vest sipky ==== chystané obsahové, připravené filelisty: ==== Projit vsechny uzly s daným t-lemmatem a upravit koreferenci: - "takto" a "tak" a overit, popr. vyrovnat u nich anotovanou koreferenci/bridging. (Vsech "tak" nebo "takto" uzlu je 974. U 156 z nich zacina textova koreferencni sipka, u 10 zacina bridging sipka.) - "tento + (adj) + podstatne jmeno" /tj. pripad, kdy na substantivu visi "tento", nikoliv kde funguje jako podstatne jmeno samo/ ("tento" visi pod podstatnym jmenem 2586 krat. U jednoho z nich zacina textova koreferencni sipka, u zadneho bridging sipka.) - "tady" a "tu" (Vsech "tady", "tu", "tam" a "zde" uzlu je 675. U 441 zacina textova koreferencni sipka, u 6 z nich zacina bridging sipka.) - "ten" ("ten" visi pod podstatnym jmenem 652 krat. U 65 z nich zacina textova koreferencni sipka, u 15 zacina bridging sipka.)??? proč tak málo koreferencí? - "tentýž", "stejný" ("tentýž" nebo "stejný" visí pod podstatnym jmenem 251 krat. U zadneho nezacina textova koreferencni sipka, u 2 zacina bridging sipka.) - "takový", "takovýto", "onaký" ("takový", "takovýto" nebo "onaký" visi pod podstatnym jmenem 370 krat. U 1 z nich zacina textova koreferencni sipka, u 2 zacina bridging sipka.) - "jiný" ("jiný" visi pod podstatnym jmenem 559 krat. U zadneho nezacina textova koreferencni sipka, u 10 zacina bridging sipka.) ==== shoda: ==== - prepocitat jako shodu pripady, kde bridgingem se odkazuje na stejny koreferencni retezec, ale na ruzne uzly - spocitat shodu zvlast u pokracujicich koreferencnich retezcu, tj. kde nase koreference doplnuje uz existujici retezec s pronominalni koreferenci ===== HOTOVÉ ===== ==== Distribuce typů + kontrola prázdného typu ==== V PML-TQ pomocí dotazu (obdobně pro coref_text): ''t-node [ member bridging $n := [ ] ]; >> for $n.informal-type give $1,count()'' **Výsledek pro bridging (14.11.2011):** ^ typ ^ četnost ^ | SET_SUB | 13010 | | SUB_SUB | 6009 | | WHOLE_PART | 4502 | | CONTRAST | 2305 | | REST | 2246 | | PART_WHOLE | 2054 | | P_FUNCT | 1832 | | ANAF | 840 | | FUNCT_P | 429 | | **(prázdný)** | 28 | **Výsledek pro coref_text (14.11.2011):** ^ typ ^ četnost ^ | SPEC | 70936 | | GEN | 16264 | | **(prázdný)** | 5 | Identifikátory anaforů, odkud vedou šipky s prázdným typem, se najdou takto (obdobně coref_text): ''t-node $anaf := [ member bridging $n := [ !informal-type ~ ".+" ] ]; >> give $anaf.id'' ==== Distribuce src + kontrola prázdného src a target-node.rf ==== V PML-TQ pomocí dotazu (obdobně pro coref_text): ''t-node [ member bridging $n := [ ] ]; >> for $n.src give $1,count()'' **Výsledek pro bridging (14.11.2011):** ^ src ^ četnost ^ | JP | 18346 | | RO | 12782 | | JK | 606 | | AN | 310 | | RO+JP | 863 | | JP+RO | 341 | | **(prázdný)** | 7 | **Výsledek pro coref_text (14.11.2011):** ^ src ^ četnost ^ | PDT_2.0 | 20523 | | JP | 31791 | | RO | 27694 | | JK | 1581 | | AN | 683 | | RO+JP | 3492 | | JP+RO | 1406 | | **(prázdný)** | 35 | Identifikátory anaforů, odkud vedou šipky s prázdným src, se najdou takto (obdobně coref_text): ''t-node $anaf := [ member bridging $n := [ !src ~ ".+" ] ]; >> give $anaf.id'' Identifikátory anaforů, odkud vedou šipky s prázdným target-node.rf, se najdou takto (obdobně coref_text): (14.11.2011 jich bylo 0 a 0.) ''t-node $anaf := [ member bridging [ 0x target-node.rf t-node [ ] ] ]; >> give $anaf.id'' ==== Hledání dvou (a více) paralelních bridging šipek ==== V PMLTQ dotazem: ''t-node $n := [ member bridging [ target-node.rf $n4 ], member bridging [ target-node.rf t-node $n4 := [ ] ] ]; >> give distinct $n.id'' 13. prosince se našlo 28 výskytů, ručně jsem vyřešil.