Differences

This shows you the differences between two versions of the page.

--- user:mirovsky:poznamky-k-automatickemu-urcovani-koreference [2009/09/25 18:37]
mirovsky
+++ user:mirovsky:poznamky-k-automatickemu-urcovani-koreference [2009/10/13 15:18] (current)
mirovsky
@@ Line 1: / Line 1: @@
 ===== Automatické určování koreference =====
-=== poznámky ke schůzce 29. září ===
@@ Line 10: / Line 10: @@
-=== Co budou markables? ===
+==== Co budou markables? ====
 Podle mne všechna podstatná jména a všechna osobní zájmena. Přinejmenším zpočátku, pak se to může vylepšovat či rozšiřovat. Řídil bych se především potřebami projektu PlayCoref a tím, co je anotováno v projektu Bridging.
@@ Line 16: / Line 16: @@
 Na pojmenované entity bych se vykašlal, alespoň zatím. V datech bridging stejně máme šipky mezi jednotlivými uzly. Sice na tekto rovině, ale projekce do analytické roviny a zpět (tedy i na povrch) je podle mne jednoznačná.
-=== Jak poznat nové uvedení slova do diskurzu od slova, které koreferuje už s něčím dříve zmíněným? ===
+==== Jak poznat nové uvedení slova do diskurzu od slova, které koreferuje už s něčím dříve zmíněným? ====
+Neboli: Má z daného markable vést někam šipka? Je anaphorem nějakého antecedentu?
 Vidím dvě možnosti:
@@ Line 22: / Line 25: @@
 ) V rankingu určit mez, kterou musí vítězný kandidát překročit, aby vůbec nějaká koreference byla označena. Může i koexistovat s předchozím modulem.
-=== Kdo budou kandidáti? ===
-Předchozí osobní zájmena a podstatná jména, tedy tytéž markables. Předchozí až do nějaké vzdálenosti nebo všichni až do začátku textu? Respektive přesněji: předchozí diskurzní entity - již existující koreferenční řetězec by měl vystupovat jako jeden kandidát. (Nebudou se tím šířit předchozí chyby?)
+==== Kdo budou kandidáti? ====
+Předchozí osobní zájmena a podstatná jména, tedy tytéž markables. Předchozí až do nějaké vzdálenosti nebo všichni až do začátku textu? Respektive přesněji: předchozí diskurzní entity - již existující koreferenční řetězec by měl vystupovat jako jeden kandidát. (Nebudou se tím šířit předchozí chyby? Dá se vyřešit další featurou - kolikátý prvek řetězce zprava od nejbližšího kandidáta to je.)
 Narozdíl od některých přístupů bych za antecedent vždy volil nejbližší prvek budoucího koref. řetězce - tzn. i zájmeno může být antecedentem podstatného jména - to je možné právě díky posuzování kandidátů včetně jejich existujícího koref. řetězce.
-=== Jaká metoda, jaké features? ===
+==== Jaká metoda, jaké features? ====
 Supervised ranking. Unsupervised metody bych zvážil později, pokud by mohly přispět ke zvýšení úspěšnosti supervised metod, např. při adaptaci na jinou doménu apod.
@@ Line 36: / Line 40: @@
 Další možností je využít už existující koreferenční řetězec - neposuzuju kandidáta samostatně, ale už i s jeho koreferenty - mám pocit, že už to někdo někde takhle taky dělal (?). Kandidát pak dostane skóre na základě "shody" i s těmi koreferenty.
-=== Features ===
+==== Features ====
 Features pro ranking (a jejich váhy) budou různé pro různé typy anaphor (pozná se podle tagu), nejméně tyto tři typy:
-- zájmena
+- zájmena (zájmen je více; jaká rozlišovat? Osobní zájmena (v klitice, plné formě), další zájmena?)
 - vlastní jména
+- demonstrative noun phrase?
 - ostatní podstatná jména
-Features bych pro začátek vzal z různých článků, např. Denis and Baldridge (2008?), Soon et al. (2001); Denis and Baldridge je pěkně rozdělují do skupin podle typu:
+Features bych pro začátek vzal z různých článků, např. Denis and Baldridge (2008?), Soon et al. (2001); Denis and Baldridge je pěkně rozdělují do skupin podle typu.
+Další features mohou přibýt díky např. stromové struktuře a ohodnocení uzlů analytickými funkcemi.
+=== Linguistic Form ===
+** (Personal?) Pronoun (0/1) ** - je kandidát (osobní?) zájmeno?
+** Proper Name (0/1) ** - je kandidát vlastní jméno?
+** General Name (0/1) ** - je kandidát obecné jméno?
+** Demonstrative Noun Phrase (0/1) ** - visí na podstatném jménu anaphoru něco jako "tento, tato apod."? Je stejné pro všechny kandidáty! Ale vhodné pro rozhodování, zda z daného uzlu vést šipku nebo ne.
+=== Context ===
+** POS Left (10 hodnot -> 10 features) ** - POS slova vlevo od kandidáta
-== Linguistic Form ==
+** POS Right (10 hodnot -> 10 features) ** - POS slova vpravo od kandidáta
-Sleduje, zda kandidát je vlastní jméno, obecné jméno nebo zájmeno.
+** POS Surr (10x10 hodnot -> 100 features) ** - POS slova vlevo a slova vpravo od kandidáta
-Dále:
+=== Distance ===
-** Demonstrative Noun Phrase ** - visí na podstatném jménu anaphoru něco jako "tento, tato apod."?
+** Distance (více hodnot, řádově desítky až stovky features) ** - vzdálenost anaphoru od kandidáta; v čem měřit? (věty, slovesa, slova - možná víc featur))
-== Context ==
+=== Morphosyntactic Agreement ===
-POS slov kolem kandidáta (před, po, okolo)
+** Number Agreement (0/1) ** - shoda v čísle
-== Distance ==
+** Gender Agreement (0/1) ** - shoda v rodu
-** Distance ** - vzdálenost anaphoru od kandidáta; v čem měřit? (věty, slovesa, slova - možná víc featur))
+** Person Agreement (0/1) ** - shoda v osobě (?)
-== Morphosyntactic Agreement ==
+** Both Proper Names (0/1) ** - (Soon et al. 2001)
-** Number Agreement ** - shoda v čísle
+=== Semantic Similarity ===
-** Gender Agreement ** - shoda v rodu
+** Semantic Similarity ** - WordNet - existuje nástroj pro měření podobnosti slov na základě Wordnetu v Perlu, je částí OpenNLP Toolkitu. Funguje ale na Czech EuroWordNet? Také by šla použít podobnost na základě Wikipedie (Ponzetto & Strube, 2006)
-** Person Agreement ** - shoda v osobě (?)
+=== String Similarity ===
-** Both Proper Names ** - (Soon et al. 2001)
+** String Match (0/1) ** - na lemmatech (bez přípon); případně s použitím editační vzdálenosti - více features pro různé hodnoty
-== Semantic Similarity ==
+** Left substring (0/1) **
-** Semantic Similarity ** - WordNet - existuje nástroj pro měření podobnosti slov na základě Wordnetu v Perlu, je částí OpenNLP Toolkitu.
+** Right substring (0/1) **
-== String Similarity ==
+=== Apposition ===
-** String Match ** - na lemmatech (bez přípon) - binární (0/1) nebo editační vzdálenost?
+** Apposition (0/1) ** - Anja tam možná nedělá šipky?
-** Left substring **
+=== Acronym ===
-** Right substring **
+** Acronym (0/1) ** - např. "ČR" a "republika, na které visí česká" - tady můžeme dobře využít analytickou rovinu
-** Head word match ** - to je featura z Denise, ale co to je?
+=== Salience ===
-== Apposition ==
+** Salience (více hodnot - řádově do deseti features) ** - pro antecedenty zájmen - aktivovanost v diskurzu (podle Hajičové?)
-** Apposition ** - Anja tam možná nedělá šipky?
+=== Vynecháno ze zmíněných článků, co se nehodí pro češtinu (nebo z jiných důvodů) ===
-== Acronym ==
+- kandidát je definite/undefinite noun phrase
+- Semantic Class Agreement - (female, male, person, organization, location, date, time, money, percent, object) - vyžaduje nástroj, který by to určil
+- Head word match - to je featura z Denise, ale co to je?
-** Acronym ** - např. "ČR" a "republika, na které visí česká" - tady můžeme dobře využít analytickou rovinu

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences