Differences

This shows you the differences between two versions of the page.

--- user:mirovsky:poznamky-k-automatickemu-urcovani-koreference [2009/09/25 17:55]
mirovsky
+++ user:mirovsky:poznamky-k-automatickemu-urcovani-koreference [2009/09/25 18:12]
mirovsky
@@ Line 21: / Line 21: @@
 ) Předřadit modul, který to určí; úspěšnost by však musela být velice vysoká, jinak to považuju za zbytečné snižování celkové úspěšnosti. Nicméně není problém takový modul ve scénáři mít či mít možnost ho tam mít.
 ) V rankingu určit mez, kterou musí vítězný kandidát překročit, aby vůbec nějaká koreference byla označena. Může i koexistovat s předchozím modulem.
+** Kdo budou kandidáti? **
+Předchozí osobní zájmena a podstatná jména, tedy tytéž markables. Předchozí až do nějaké vzdálenosti nebo všichni až do začátku textu? Respektive přesněji: předchozí diskurzní entity - již existující koreferenční řetězec by měl vystupovat jako jeden kandidát. (Nebudou se tím šířit předchozí chyby?)
+Narozdíl od některých přístupů bych za antecedent vždy volil nejbližší prvek budoucího koref. řetězce - tzn. i zájmeno může být antecedentem podstatného jména - to je možné právě díky posuzování kandidátů včetně jejich existujícího koref. řetězce.
 ** Jaká metoda, jaké features? **
-Ranking - ale jaký?
+Supervised ranking. Unsupervised metody bych zvážil později, pokud by mohly přispět ke zvýšení úspěšnosti supervised metod, např. při adaptaci na jinou doménu apod.
-Co bude ranker posuzovat v jednom kroku? //Anaphor + 1 kandidát// nebo //anaphor + kandidát + všichni ostatní kandidáti// Mám pocit, že všichni to dělají jen //anaphor + 1 kandidát// - tím můžeme začít, ale nechal bych si možnost rozšířit to. Napadá mě featura typu "Je mezi ostatními kandidáty vlastní jméno?".
+**Ranking - ale jaký?**
+Co bude ranker posuzovat v jednom kroku? "Anaphor + 1 kandidát" nebo "anaphor + kandidát + všichni ostatní kandidáti"? Mám pocit, že všichni to dělají jen "anaphor + 1 kandidát" - tím můžeme začít, ale nechal bych si možnost rozšířit to. Napadá mě featura typu "Je mezi ostatními kandidáty vlastní jméno?".
+Další možností je využít už existující koreferenční řetězec - neposuzuju kandidáta samostatně, ale už i s jeho koreferenty - mám pocit, že už to někdo někde takhle taky dělal (?). Kandidát pak dostane skóre na základě "shody" i s těmi koreferenty.
 Features pro ranking (a jejich váhy) budou různé pro různé typy anaphor (pozná se podle tagu), nejméně tyto tři typy:
@@ Line 33: / Line 41: @@
 - ostatní podstatná jména
-Features bych vzal z různých článků, např. Denis and Baldridge (2008?), Soon et al. (2001)
+Features bych pro začátek vzal z různých článků, např. Denis and Baldridge (2008?), Soon et al. (2001)

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences