Differences
This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
polo-automaticke-kontroly-dat [2011/06/24 08:09] mirovsky |
polo-automaticke-kontroly-dat [2011/12/13 11:49] (current) ufal |
||
|---|---|---|---|
| Line 2: | Line 2: | ||
| ==== chystané: ==== | ==== chystané: ==== | ||
| - | - vytvořit tabulku distribuce typů - zkontrolovat, | + | |
| - | - zkontrolovat, | + | |
| - | - zkontrolovat, | + | |
| + | - zkontrolovat, | ||
| + | - (HOTOVO) u dlouhych koreferencnich retezcu propojenych bridgingem nechat jednu bridging sipku, ktera je propojuje. Ostatni smazat | ||
| - | ==== hotové: ==== | ||
| + | ==== chystané obsahové: ==== | ||
| + | 1. // | ||
| + | 2. vytáhnout koreferenční řetězce, kde se prolínají SPEC a GEN, podívat se na ně a zjistit, jestli má cenu tam něco měnit | ||
| + | 3. //u nás// | ||
| + | 4. projít rekonstruované NP, vyjádřené slovy a dodělat občas chybějící koreferenci a bridging | ||
| + | 5. vyhledat a sjednotit pripady neshody, kde je nejaky | ||
| + | 6 prohledat uzly s funktorem ID - nemely by na ne vest sipky | ||
| + | |||
| + | ==== chystané obsahové, připravené filelisty: ==== | ||
| + | Projit vsechny uzly s daným t-lemmatem a upravit koreferenci: | ||
| + | |||
| + | - " | ||
| + | |||
| + | - "tento + (adj) + podstatne jmeno" /tj. pripad, kdy na substantivu visi " | ||
| + | |||
| + | - " | ||
| + | |||
| + | - " | ||
| + | |||
| + | - " | ||
| + | |||
| + | - " | ||
| + | |||
| + | - " | ||
| + | |||
| + | ==== shoda: ==== | ||
| + | - prepocitat jako shodu pripady, kde bridgingem se odkazuje na stejny koreferencni retezec, ale na ruzne uzly | ||
| + | - spocitat shodu zvlast u pokracujicich koreferencnich retezcu, tj. kde nase koreference doplnuje uz existujici retezec s pronominalni koreferenci | ||
| + | |||
| + | |||
| + | ===== HOTOVÉ ===== | ||
| + | |||
| + | ==== Distribuce typů + kontrola prázdného typu ==== | ||
| + | |||
| + | V PML-TQ pomocí dotazu (obdobně pro coref_text): | ||
| + | |||
| + | '' | ||
| + | [ member bridging $n := [ ] ]; | ||
| + | >> for $n.informal-type give $1, | ||
| + | |||
| + | **Výsledek pro bridging (14.11.2011): | ||
| + | |||
| + | ^ typ ^ četnost ^ | ||
| + | | SET_SUB | 13010 | | ||
| + | | SUB_SUB | 6009 | | ||
| + | | WHOLE_PART | 4502 | | ||
| + | | CONTRAST | 2305 | | ||
| + | | REST | 2246 | | ||
| + | | PART_WHOLE | 2054 | | ||
| + | | P_FUNCT | 1832 | | ||
| + | | ANAF | 840 | | ||
| + | | FUNCT_P | 429 | | ||
| + | | **(prázdný)** | 28 | | ||
| + | |||
| + | **Výsledek pro coref_text (14.11.2011): | ||
| + | |||
| + | ^ typ ^ četnost ^ | ||
| + | | SPEC | 70936 | | ||
| + | | GEN | 16264 | | ||
| + | | **(prázdný)** | 5 | | ||
| + | |||
| + | Identifikátory anaforů, odkud vedou šipky s prázdným typem, se najdou takto (obdobně coref_text): | ||
| + | |||
| + | '' | ||
| + | [ member bridging $n := | ||
| + | [ !informal-type ~ " | ||
| + | >> give $anaf.id'' | ||
| + | |||
| + | ==== Distribuce src + kontrola prázdného src a target-node.rf ==== | ||
| + | |||
| + | V PML-TQ pomocí dotazu (obdobně pro coref_text): | ||
| + | |||
| + | '' | ||
| + | [ member bridging $n := [ ] ]; | ||
| + | >> for $n.src give $1, | ||
| + | |||
| + | **Výsledek pro bridging (14.11.2011): | ||
| + | |||
| + | ^ src ^ četnost ^ | ||
| + | | JP | 18346 | | ||
| + | | RO | 12782 | | ||
| + | | JK | 606 | | ||
| + | | AN | 310 | | ||
| + | | RO+JP | 863 | | ||
| + | | JP+RO | 341 | | ||
| + | | **(prázdný)** | 7 | | ||
| + | |||
| + | **Výsledek pro coref_text (14.11.2011): | ||
| + | |||
| + | ^ src ^ četnost ^ | ||
| + | | PDT_2.0 | 20523 | | ||
| + | | JP | 31791 | | ||
| + | | RO | 27694 | | ||
| + | | JK | 1581 | | ||
| + | | AN | 683 | | ||
| + | | RO+JP | 3492 | | ||
| + | | JP+RO | 1406 | | ||
| + | | **(prázdný)** | 35 | | ||
| + | |||
| + | Identifikátory anaforů, odkud vedou šipky s prázdným src, se najdou takto (obdobně coref_text): | ||
| + | |||
| + | '' | ||
| + | [ member bridging $n := | ||
| + | [ !src ~ " | ||
| + | >> give $anaf.id'' | ||
| + | |||
| + | Identifikátory anaforů, odkud vedou šipky s prázdným target-node.rf, | ||
| + | (14.11.2011 jich bylo 0 a 0.) | ||
| + | |||
| + | '' | ||
| + | [ member bridging | ||
| + | [ 0x target-node.rf t-node [ ] ] ]; | ||
| + | >> give $anaf.id'' | ||
| + | |||
| + | ==== Hledání dvou (a více) paralelních bridging šipek ==== | ||
| + | |||
| + | V PMLTQ dotazem: | ||
| + | |||
| + | '' | ||
| + | [ member bridging | ||
| + | [ target-node.rf $n4 ], | ||
| + | | ||
| + | [ target-node.rf t-node $n4 := [ ] ] ]; | ||
| + | >> give distinct $n.id'' | ||
| + | |||
| + | 13. prosince se našlo 28 výskytů, ručně jsem vyřešil. | ||
