[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:mirovsky:poznamky-k-automatickemu-urcovani-koreference [2009/09/25 18:37]
mirovsky
user:mirovsky:poznamky-k-automatickemu-urcovani-koreference [2009/09/25 18:49]
mirovsky
Line 1: Line 1:
 ===== Automatické určování koreference ===== ===== Automatické určování koreference =====
  
-=== poznámky ke schůzce 29. září ===+==== poznámky ke schůzce 29. září ====
  
  
Line 10: Line 10:
  
  
-=== Co budou markables? ===+==== Co budou markables? ====
  
 Podle mne všechna podstatná jména a všechna osobní zájmena. Přinejmenším zpočátku, pak se to může vylepšovat či rozšiřovat. Řídil bych se především potřebami projektu PlayCoref a tím, co je anotováno v projektu Bridging. Podle mne všechna podstatná jména a všechna osobní zájmena. Přinejmenším zpočátku, pak se to může vylepšovat či rozšiřovat. Řídil bych se především potřebami projektu PlayCoref a tím, co je anotováno v projektu Bridging.
Line 16: Line 16:
 Na pojmenované entity bych se vykašlal, alespoň zatím. V datech bridging stejně máme šipky mezi jednotlivými uzly. Sice na tekto rovině, ale projekce do analytické roviny a zpět (tedy i na povrch) je podle mne jednoznačná. Na pojmenované entity bych se vykašlal, alespoň zatím. V datech bridging stejně máme šipky mezi jednotlivými uzly. Sice na tekto rovině, ale projekce do analytické roviny a zpět (tedy i na povrch) je podle mne jednoznačná.
  
-=== Jak poznat nové uvedení slova do diskurzu od slova, které koreferuje už s něčím dříve zmíněným? ===+ 
 +==== Jak poznat nové uvedení slova do diskurzu od slova, které koreferuje už s něčím dříve zmíněným? ===
 + 
 +Neboli: Má z daného markable vést někam šipka? Je anaphorem nějakého antecedentu?
  
 Vidím dvě možnosti: Vidím dvě možnosti:
Line 22: Line 25:
 2) V rankingu určit mez, kterou musí vítězný kandidát překročit, aby vůbec nějaká koreference byla označena. Může i koexistovat s předchozím modulem. 2) V rankingu určit mez, kterou musí vítězný kandidát překročit, aby vůbec nějaká koreference byla označena. Může i koexistovat s předchozím modulem.
  
-=== Kdo budou kandidáti? ===+==== Kdo budou kandidáti? ====
  
 Předchozí osobní zájmena a podstatná jména, tedy tytéž markables. Předchozí až do nějaké vzdálenosti nebo všichni až do začátku textu? Respektive přesněji: předchozí diskurzní entity - již existující koreferenční řetězec by měl vystupovat jako jeden kandidát. (Nebudou se tím šířit předchozí chyby?) Předchozí osobní zájmena a podstatná jména, tedy tytéž markables. Předchozí až do nějaké vzdálenosti nebo všichni až do začátku textu? Respektive přesněji: předchozí diskurzní entity - již existující koreferenční řetězec by měl vystupovat jako jeden kandidát. (Nebudou se tím šířit předchozí chyby?)
 Narozdíl od některých přístupů bych za antecedent vždy volil nejbližší prvek budoucího koref. řetězce - tzn. i zájmeno může být antecedentem podstatného jména - to je možné právě díky posuzování kandidátů včetně jejich existujícího koref. řetězce. Narozdíl od některých přístupů bych za antecedent vždy volil nejbližší prvek budoucího koref. řetězce - tzn. i zájmeno může být antecedentem podstatného jména - to je možné právě díky posuzování kandidátů včetně jejich existujícího koref. řetězce.
  
-=== Jaká metoda, jaké features? ===+==== Jaká metoda, jaké features? ====
  
 Supervised ranking. Unsupervised metody bych zvážil později, pokud by mohly přispět ke zvýšení úspěšnosti supervised metod, např. při adaptaci na jinou doménu apod. Supervised ranking. Unsupervised metody bych zvážil později, pokud by mohly přispět ke zvýšení úspěšnosti supervised metod, např. při adaptaci na jinou doménu apod.
Line 36: Line 39:
 Další možností je využít už existující koreferenční řetězec - neposuzuju kandidáta samostatně, ale už i s jeho koreferenty - mám pocit, že už to někdo někde takhle taky dělal (?). Kandidát pak dostane skóre na základě "shody" i s těmi koreferenty. Další možností je využít už existující koreferenční řetězec - neposuzuju kandidáta samostatně, ale už i s jeho koreferenty - mám pocit, že už to někdo někde takhle taky dělal (?). Kandidát pak dostane skóre na základě "shody" i s těmi koreferenty.
  
-=== Features ===+ 
 + 
 +==== Features ====
  
 Features pro ranking (a jejich váhy) budou různé pro různé typy anaphor (pozná se podle tagu), nejméně tyto tři typy: Features pro ranking (a jejich váhy) budou různé pro různé typy anaphor (pozná se podle tagu), nejméně tyto tři typy:
Line 45: Line 50:
 Features bych pro začátek vzal z různých článků, např. Denis and Baldridge (2008?), Soon et al. (2001); Denis and Baldridge je pěkně rozdělují do skupin podle typu: Features bych pro začátek vzal z různých článků, např. Denis and Baldridge (2008?), Soon et al. (2001); Denis and Baldridge je pěkně rozdělují do skupin podle typu:
  
-== Linguistic Form ==+=== Linguistic Form ===
  
 Sleduje, zda kandidát je vlastní jméno, obecné jméno nebo zájmeno. Sleduje, zda kandidát je vlastní jméno, obecné jméno nebo zájmeno.
Line 53: Line 58:
 ** Demonstrative Noun Phrase ** - visí na podstatném jménu anaphoru něco jako "tento, tato apod."? ** Demonstrative Noun Phrase ** - visí na podstatném jménu anaphoru něco jako "tento, tato apod."?
  
-== Context ==+=== Context ===
  
-POS slov kolem kandidáta (před, po, okolo)+** POS Left ** - POS slova vlevo od kandidáta
  
-== Distance ==+** POS Right ** - POS slova vpravo od kandidáta 
 + 
 +** POS Surr ** - POS slova vlevo a slova vpravo od kandidáta 
 + 
 +=== Distance ===
  
 ** Distance ** - vzdálenost anaphoru od kandidáta; v čem měřit? (věty, slovesa, slova - možná víc featur)) ** Distance ** - vzdálenost anaphoru od kandidáta; v čem měřit? (věty, slovesa, slova - možná víc featur))
  
-== Morphosyntactic Agreement ==+=== Morphosyntactic Agreement ===
  
 ** Number Agreement ** - shoda v čísle ** Number Agreement ** - shoda v čísle
Line 71: Line 80:
 ** Both Proper Names ** - (Soon et al. 2001) ** Both Proper Names ** - (Soon et al. 2001)
  
-== Semantic Similarity ==+=== Semantic Similarity ===
  
 ** Semantic Similarity ** - WordNet - existuje nástroj pro měření podobnosti slov na základě Wordnetu v Perlu, je částí OpenNLP Toolkitu. ** Semantic Similarity ** - WordNet - existuje nástroj pro měření podobnosti slov na základě Wordnetu v Perlu, je částí OpenNLP Toolkitu.
  
-== String Similarity ==+=== String Similarity ===
  
 ** String Match ** - na lemmatech (bez přípon) - binární (0/1) nebo editační vzdálenost? ** String Match ** - na lemmatech (bez přípon) - binární (0/1) nebo editační vzdálenost?
Line 83: Line 92:
 ** Right substring ** ** Right substring **
  
-** Head word match ** - to je featura z Denise, ale co to je? +=== Apposition ===
- +
-== Apposition ==+
  
 ** Apposition ** - Anja tam možná nedělá šipky? ** Apposition ** - Anja tam možná nedělá šipky?
  
-== Acronym ==+=== Acronym ===
  
 ** Acronym ** - např. "ČR" a "republika, na které visí česká" - tady můžeme dobře využít analytickou rovinu ** Acronym ** - např. "ČR" a "republika, na které visí česká" - tady můžeme dobře využít analytickou rovinu
 +
 +=== Vynecháno ze zmíněných článků, co se nehodí pro češtinu (nebo z jiných důvodů) ===
 +
 +- kandidát je definite/undefinite noun phrase
 +- Semantic Class Agreement - (female, male, person, organization, location, date, time, money, percent, object) - vyžaduje nástroj, který by to určil
 +- Head word match - to je featura z Denise, ale co to je?
 +
  
  

[ Back to the navigation ] [ Back to the content ]