Differences

This shows you the differences between two versions of the page.

--- user:mirovsky:poznamky-k-automatickemu-urcovani-koreference [2009/09/25 17:45]
mirovsky
+++ user:mirovsky:poznamky-k-automatickemu-urcovani-koreference [2009/09/25 18:39]
mirovsky
@@ Line 1: / Line 1: @@
 ===== Automatické určování koreference =====
-=== __poznámky__ ke schůzce 29. září__ ===
+==== poznámky ke schůzce 29. září ====
@@ Line 10: / Line 10: @@
-** Co budou markables? **
+==== Co budou markables? ====
 Podle mne všechna podstatná jména a všechna osobní zájmena. Přinejmenším zpočátku, pak se to může vylepšovat či rozšiřovat. Řídil bych se především potřebami projektu PlayCoref a tím, co je anotováno v projektu Bridging.
@@ Line 16: / Line 16: @@
 Na pojmenované entity bych se vykašlal, alespoň zatím. V datech bridging stejně máme šipky mezi jednotlivými uzly. Sice na tekto rovině, ale projekce do analytické roviny a zpět (tedy i na povrch) je podle mne jednoznačná.
-** Jak poznat nové uvedení slova do diskurzu od slova, které koreferuje už s něčím dříve zmíněným? **
+==== Jak poznat nové uvedení slova do diskurzu od slova, které koreferuje už s něčím dříve zmíněným? ====
 Vidím dvě možnosti:
@@ Line 22: / Line 22: @@
 ) V rankingu určit mez, kterou musí vítězný kandidát překročit, aby vůbec nějaká koreference byla označena. Může i koexistovat s předchozím modulem.
-** Jaká metoda, jaké features? **
+==== Kdo budou kandidáti? ====
-Ranking - ale jaký?
+Předchozí osobní zájmena a podstatná jména, tedy tytéž markables. Předchozí až do nějaké vzdálenosti nebo všichni až do začátku textu? Respektive přesněji: předchozí diskurzní entity - již existující koreferenční řetězec by měl vystupovat jako jeden kandidát. (Nebudou se tím šířit předchozí chyby?)
+Narozdíl od některých přístupů bych za antecedent vždy volil nejbližší prvek budoucího koref. řetězce - tzn. i zájmeno může být antecedentem podstatného jména - to je možné právě díky posuzování kandidátů včetně jejich existujícího koref. řetězce.
-Co bude ranker posuzovat v jednom kroku? //Anaphor + 1 kandidát// nebo //anaphor + kandidát + všichni ostatní kandidáti//? Mám pocit, že všichni to dělají jen //anaphor + 1 kandidát// - tím můžeme začít, ale nechal bych si možnost rozšířit to. Napadá mě featura typu "Je mezi ostatními kandidáty vlastní jméno?".
+==== Jaká metoda, jaké features? ====
+Supervised ranking. Unsupervised metody bych zvážil později, pokud by mohly přispět ke zvýšení úspěšnosti supervised metod, např. při adaptaci na jinou doménu apod.
+**Ranking - ale jaký?**
+Co bude ranker posuzovat v jednom kroku? "Anaphor + 1 kandidát" nebo "anaphor + kandidát + všichni ostatní kandidáti"? Mám pocit, že všichni to dělají jen "anaphor + 1 kandidát" - tím můžeme začít, ale nechal bych si možnost rozšířit to. Napadá mě featura typu "Je mezi ostatními kandidáty vlastní jméno?".
+Další možností je využít už existující koreferenční řetězec - neposuzuju kandidáta samostatně, ale už i s jeho koreferenty - mám pocit, že už to někdo někde takhle taky dělal (?). Kandidát pak dostane skóre na základě "shody" i s těmi koreferenty.
+==== Features ====
 Features pro ranking (a jejich váhy) budou různé pro různé typy anaphor (pozná se podle tagu), nejméně tyto tři typy:
@@ Line 33: / Line 43: @@
 - ostatní podstatná jména
-Features bych vzal z různých článků, např. Denis and Baldridge (2008?), Soon et al. (2001)
+Features bych pro začátek vzal z různých článků, např. Denis and Baldridge (2008?), Soon et al. (2001); Denis and Baldridge je pěkně rozdělují do skupin podle typu:
+=== Linguistic Form ===
+Sleduje, zda kandidát je vlastní jméno, obecné jméno nebo zájmeno.
+Dále:
+** Demonstrative Noun Phrase ** - visí na podstatném jménu anaphoru něco jako "tento, tato apod."?
+=== Context ===
+POS slov kolem kandidáta (před, po, okolo)
+=== Distance ===
+** Distance ** - vzdálenost anaphoru od kandidáta; v čem měřit? (věty, slovesa, slova - možná víc featur))
+=== Morphosyntactic Agreement ===
+** Number Agreement ** - shoda v čísle
+** Gender Agreement ** - shoda v rodu
+** Person Agreement ** - shoda v osobě (?)
+** Both Proper Names ** - (Soon et al. 2001)
+=== Semantic Similarity ===
+** Semantic Similarity ** - WordNet - existuje nástroj pro měření podobnosti slov na základě Wordnetu v Perlu, je částí OpenNLP Toolkitu.
+=== String Similarity ===
+** String Match ** - na lemmatech (bez přípon) - binární (0/1) nebo editační vzdálenost?
+** Left substring **
+** Right substring **
+** Head word match ** - to je featura z Denise, ale co to je?
+=== Apposition ===
+** Apposition ** - Anja tam možná nedělá šipky?
+=== Acronym ===
+** Acronym ** - např. "ČR" a "republika, na které visí česká" - tady můžeme dobře využít analytickou rovinu

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences