Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:mirovsky:poznamky-k-automatickemu-urcovani-koreference [2009/09/25 18:37] mirovsky |
user:mirovsky:poznamky-k-automatickemu-urcovani-koreference [2009/09/25 18:44] mirovsky |
||
---|---|---|---|
Line 1: | Line 1: | ||
===== Automatické určování koreference ===== | ===== Automatické určování koreference ===== | ||
- | === poznámky ke schůzce 29. září === | + | ==== poznámky ke schůzce 29. září |
Line 10: | Line 10: | ||
- | === Co budou markables? === | + | ==== Co budou markables? |
Podle mne všechna podstatná jména a všechna osobní zájmena. Přinejmenším zpočátku, pak se to může vylepšovat či rozšiřovat. Řídil bych se především potřebami projektu PlayCoref a tím, co je anotováno v projektu Bridging. | Podle mne všechna podstatná jména a všechna osobní zájmena. Přinejmenším zpočátku, pak se to může vylepšovat či rozšiřovat. Řídil bych se především potřebami projektu PlayCoref a tím, co je anotováno v projektu Bridging. | ||
Line 16: | Line 16: | ||
Na pojmenované entity bych se vykašlal, alespoň zatím. V datech bridging stejně máme šipky mezi jednotlivými uzly. Sice na tekto rovině, ale projekce do analytické roviny a zpět (tedy i na povrch) je podle mne jednoznačná. | Na pojmenované entity bych se vykašlal, alespoň zatím. V datech bridging stejně máme šipky mezi jednotlivými uzly. Sice na tekto rovině, ale projekce do analytické roviny a zpět (tedy i na povrch) je podle mne jednoznačná. | ||
- | === Jak poznat nové uvedení slova do diskurzu od slova, které koreferuje už s něčím dříve zmíněným? | + | ==== Jak poznat nové uvedení slova do diskurzu od slova, které koreferuje už s něčím dříve zmíněným? |
Vidím dvě možnosti: | Vidím dvě možnosti: | ||
Line 22: | Line 22: | ||
2) V rankingu určit mez, kterou musí vítězný kandidát překročit, | 2) V rankingu určit mez, kterou musí vítězný kandidát překročit, | ||
- | === Kdo budou kandidáti? === | + | ==== Kdo budou kandidáti? |
Předchozí osobní zájmena a podstatná jména, tedy tytéž markables. Předchozí až do nějaké vzdálenosti nebo všichni až do začátku textu? Respektive přesněji: předchozí diskurzní entity - již existující koreferenční řetězec by měl vystupovat jako jeden kandidát. (Nebudou se tím šířit předchozí chyby?) | Předchozí osobní zájmena a podstatná jména, tedy tytéž markables. Předchozí až do nějaké vzdálenosti nebo všichni až do začátku textu? Respektive přesněji: předchozí diskurzní entity - již existující koreferenční řetězec by měl vystupovat jako jeden kandidát. (Nebudou se tím šířit předchozí chyby?) | ||
Narozdíl od některých přístupů bych za antecedent vždy volil nejbližší prvek budoucího koref. řetězce - tzn. i zájmeno může být antecedentem podstatného jména - to je možné právě díky posuzování kandidátů včetně jejich existujícího koref. řetězce. | Narozdíl od některých přístupů bych za antecedent vždy volil nejbližší prvek budoucího koref. řetězce - tzn. i zájmeno může být antecedentem podstatného jména - to je možné právě díky posuzování kandidátů včetně jejich existujícího koref. řetězce. | ||
- | === Jaká metoda, jaké features? === | + | ==== Jaká metoda, jaké features? |
Supervised ranking. Unsupervised metody bych zvážil později, pokud by mohly přispět ke zvýšení úspěšnosti supervised metod, např. při adaptaci na jinou doménu apod. | Supervised ranking. Unsupervised metody bych zvážil později, pokud by mohly přispět ke zvýšení úspěšnosti supervised metod, např. při adaptaci na jinou doménu apod. | ||
Line 36: | Line 36: | ||
Další možností je využít už existující koreferenční řetězec - neposuzuju kandidáta samostatně, | Další možností je využít už existující koreferenční řetězec - neposuzuju kandidáta samostatně, | ||
- | === Features === | + | |
+ | ==== Features | ||
Features pro ranking (a jejich váhy) budou různé pro různé typy anaphor (pozná se podle tagu), nejméně tyto tři typy: | Features pro ranking (a jejich váhy) budou různé pro různé typy anaphor (pozná se podle tagu), nejméně tyto tři typy: | ||
Line 45: | Line 46: | ||
Features bych pro začátek vzal z různých článků, např. Denis and Baldridge (2008?), Soon et al. (2001); Denis and Baldridge je pěkně rozdělují do skupin podle typu: | Features bych pro začátek vzal z různých článků, např. Denis and Baldridge (2008?), Soon et al. (2001); Denis and Baldridge je pěkně rozdělují do skupin podle typu: | ||
- | == Linguistic Form == | + | === Linguistic Form === |
Sleduje, zda kandidát je vlastní jméno, obecné jméno nebo zájmeno. | Sleduje, zda kandidát je vlastní jméno, obecné jméno nebo zájmeno. | ||
Line 53: | Line 54: | ||
** Demonstrative Noun Phrase ** - visí na podstatném jménu anaphoru něco jako " | ** Demonstrative Noun Phrase ** - visí na podstatném jménu anaphoru něco jako " | ||
- | == Context == | + | === Context |
- | POS slov kolem kandidáta (před, po, okolo) | + | POS slov kolem kandidáta (3 featury: |
- | == Distance == | + | === Distance |
** Distance ** - vzdálenost anaphoru od kandidáta; v čem měřit? (věty, slovesa, slova - možná víc featur)) | ** Distance ** - vzdálenost anaphoru od kandidáta; v čem měřit? (věty, slovesa, slova - možná víc featur)) | ||
- | == Morphosyntactic Agreement == | + | === Morphosyntactic Agreement |
** Number Agreement ** - shoda v čísle | ** Number Agreement ** - shoda v čísle | ||
Line 71: | Line 72: | ||
** Both Proper Names ** - (Soon et al. 2001) | ** Both Proper Names ** - (Soon et al. 2001) | ||
- | == Semantic Similarity == | + | === Semantic Similarity |
** Semantic Similarity ** - WordNet - existuje nástroj pro měření podobnosti slov na základě Wordnetu v Perlu, je částí OpenNLP Toolkitu. | ** Semantic Similarity ** - WordNet - existuje nástroj pro měření podobnosti slov na základě Wordnetu v Perlu, je částí OpenNLP Toolkitu. | ||
- | == String Similarity == | + | === String Similarity |
** String Match ** - na lemmatech (bez přípon) - binární (0/1) nebo editační vzdálenost? | ** String Match ** - na lemmatech (bez přípon) - binární (0/1) nebo editační vzdálenost? | ||
Line 85: | Line 86: | ||
** Head word match ** - to je featura z Denise, ale co to je? | ** Head word match ** - to je featura z Denise, ale co to je? | ||
- | == Apposition == | + | === Apposition |
** Apposition ** - Anja tam možná nedělá šipky? | ** Apposition ** - Anja tam možná nedělá šipky? | ||
- | == Acronym == | + | === Acronym |
** Acronym ** - např. " | ** Acronym ** - např. " | ||
+ | |||
+ | === Vynecháno ze zmíněných článků, co se nehodí pro češtinu (nebo z jiných důvodů) === | ||
+ | |||
+ | - kandidát je definite/ | ||
+ | - Semantic Class Agreement - (female, male, person, organization, | ||