Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision Next revision Both sides next revision | ||
user:mirovsky:poznamky-k-automatickemu-urcovani-koreference [2009/09/25 17:28] mirovsky vytvořeno |
user:mirovsky:poznamky-k-automatickemu-urcovani-koreference [2009/09/25 18:04] mirovsky |
||
---|---|---|---|
Line 10: | Line 10: | ||
- | **Otázka 1: Co budou markables? ** | + | ** Co budou markables? ** |
- | Podle mne všechna podstatná jména a všechna osobní zájmena. Přinejmenším zpočátku, pak se to může vylepšovat či rozšiřovat | + | Podle mne všechna podstatná jména a všechna osobní zájmena. Přinejmenším zpočátku, pak se to může vylepšovat či rozšiřovat. Řídil bych se především potřebami projektu PlayCoref a tím, co je anotováno v projektu Bridging. |
- | **Otázka 2: Jak poznat | + | Na pojmenované entity bych se vykašlal, alespoň zatím. V datech bridging stejně máme šipky mezi jednotlivými uzly. Sice na tekto rovině, ale projekce do analytické roviny a zpět (tedy i na povrch) je podle mne jednoznačná. |
+ | ** Jak poznat nové uvedení slova do diskurzu od slova, které koreferuje už s něčím dříve zmíněným? | ||
+ | Vidím dvě možnosti: | ||
+ | 1) Předřadit modul, který to určí; úspěšnost by však musela být velice vysoká, jinak to považuju za zbytečné snižování celkové úspěšnosti. Nicméně není problém takový modul ve scénáři mít či mít možnost ho tam mít. | ||
+ | 2) V rankingu určit mez, kterou musí vítězný kandidát překročit, | ||
- | features pro ranking (a jejich váhy) budou různé pro různé typy anaphor (pozná se podle tagu), nejméně tyto tři typy: | + | ** Kdo budou kandidáti? ** |
+ | |||
+ | Předchozí osobní zájmena a podstatná jména, tedy tytéž markables. Předchozí až do nějaké vzdálenosti nebo všichni až do začátku textu? Respektive přesněji: předchozí diskurzní entity - již existující koreferenční řetězec by měl vystupovat jako jeden kandidát. (Nebudou se tím šířit předchozí chyby?) | ||
+ | Narozdíl od některých přístupů bych za antecedent vždy volil nejbližší prvek budoucího koref. řetězce - tzn. i zájmeno může být antecedentem podstatného jména - to je možné právě díky posuzování kandidátů včetně jejich existujícího koref. řetězce. | ||
+ | |||
+ | ** Jaká metoda, jaké features? ** | ||
+ | |||
+ | Ranking - ale jaký? | ||
+ | |||
+ | Co bude ranker posuzovat v jednom kroku? " | ||
+ | Další možností je využít už existující koreferenční řetězec - neposuzuju kandidáta samostatně, | ||
+ | |||
+ | Features | ||
- zájmena | - zájmena | ||
- vlastní jména | - vlastní jména | ||
- ostatní podstatná jména | - ostatní podstatná jména | ||
+ | |||
+ | Features bych vzal z různých článků, např. Denis and Baldridge (2008?), Soon et al. (2001) | ||
+ | |||
+ | |||
+ | |||