Differences
This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
user:mirovsky:poznamky-k-automatickemu-urcovani-koreference [2009/09/25 18:01] mirovsky |
user:mirovsky:poznamky-k-automatickemu-urcovani-koreference [2009/10/13 15:18] (current) mirovsky |
||
|---|---|---|---|
| Line 1: | Line 1: | ||
| ===== Automatické určování koreference ===== | ===== Automatické určování koreference ===== | ||
| - | === poznámky ke schůzce 29. září === | + | |
| Line 10: | Line 10: | ||
| - | ** Co budou markables? | + | ==== Co budou markables? |
| Podle mne všechna podstatná jména a všechna osobní zájmena. Přinejmenším zpočátku, pak se to může vylepšovat či rozšiřovat. Řídil bych se především potřebami projektu PlayCoref a tím, co je anotováno v projektu Bridging. | Podle mne všechna podstatná jména a všechna osobní zájmena. Přinejmenším zpočátku, pak se to může vylepšovat či rozšiřovat. Řídil bych se především potřebami projektu PlayCoref a tím, co je anotováno v projektu Bridging. | ||
| Line 16: | Line 16: | ||
| Na pojmenované entity bych se vykašlal, alespoň zatím. V datech bridging stejně máme šipky mezi jednotlivými uzly. Sice na tekto rovině, ale projekce do analytické roviny a zpět (tedy i na povrch) je podle mne jednoznačná. | Na pojmenované entity bych se vykašlal, alespoň zatím. V datech bridging stejně máme šipky mezi jednotlivými uzly. Sice na tekto rovině, ale projekce do analytické roviny a zpět (tedy i na povrch) je podle mne jednoznačná. | ||
| - | ** Jak poznat nové uvedení slova do diskurzu od slova, které koreferuje už s něčím dříve zmíněným? | + | |
| + | ==== Jak poznat nové uvedení slova do diskurzu od slova, které koreferuje už s něčím dříve zmíněným? | ||
| + | |||
| + | Neboli: Má z daného markable vést někam šipka? Je anaphorem nějakého antecedentu? | ||
| Vidím dvě možnosti: | Vidím dvě možnosti: | ||
| Line 22: | Line 25: | ||
| 2) V rankingu určit mez, kterou musí vítězný kandidát překročit, | 2) V rankingu určit mez, kterou musí vítězný kandidát překročit, | ||
| - | ** Kdo budou kandidáti? ** | ||
| - | Předchozí osobní zájmena a podstatná jména, tedy tytéž markables. Předchozí až do nějaké vzdálenosti nebo všichni až do začátku textu? Respektive přesněji: předchozí diskurzní entity - již existující koreferenční řetězec by měl vystupovat jako jeden kandidát. (Nebudou se tím šířit předchozí chyby?) | + | ==== Kdo budou kandidáti? ==== |
| - | ** Jaká metoda, jaké features? ** | + | Předchozí osobní zájmena a podstatná jména, tedy tytéž markables. Předchozí až do nějaké vzdálenosti nebo všichni až do začátku textu? Respektive přesněji: předchozí diskurzní entity - již existující koreferenční řetězec by měl vystupovat jako jeden kandidát. (Nebudou se tím šířit předchozí chyby? Dá se vyřešit další featurou - kolikátý prvek řetězce zprava od nejbližšího kandidáta to je.) |
| + | Narozdíl od některých přístupů bych za antecedent vždy volil nejbližší prvek budoucího koref. řetězce - tzn. i zájmeno může být antecedentem podstatného jména - to je možné právě díky posuzování kandidátů včetně jejich existujícího koref. řetězce. | ||
| - | Ranking - ale jaký? | + | ==== Jaká metoda, jaké features? ==== |
| - | Co bude ranker posuzovat v jednom kroku? | + | Supervised ranking. Unsupervised metody bych zvážil později, pokud by mohly přispět ke zvýšení úspěšnosti supervised metod, např. při adaptaci na jinou doménu apod. |
| + | |||
| + | **Ranking - ale jaký?** | ||
| + | |||
| + | Co bude ranker posuzovat v jednom kroku? | ||
| Další možností je využít už existující koreferenční řetězec - neposuzuju kandidáta samostatně, | Další možností je využít už existující koreferenční řetězec - neposuzuju kandidáta samostatně, | ||
| + | |||
| + | |||
| + | |||
| + | |||
| + | |||
| + | |||
| + | |||
| + | |||
| + | |||
| + | ==== Features ==== | ||
| Features pro ranking (a jejich váhy) budou různé pro různé typy anaphor (pozná se podle tagu), nejméně tyto tři typy: | Features pro ranking (a jejich váhy) budou různé pro různé typy anaphor (pozná se podle tagu), nejméně tyto tři typy: | ||
| - | - zájmena | + | - zájmena |
| - vlastní jména | - vlastní jména | ||
| + | - demonstrative noun phrase? | ||
| - ostatní podstatná jména | - ostatní podstatná jména | ||
| - | Features bych vzal z různých článků, např. Denis and Baldridge (2008?), Soon et al. (2001) | + | Features bych pro začátek |
| + | Další features mohou přibýt díky např. stromové struktuře a ohodnocení uzlů analytickými funkcemi. | ||
| + | |||
| + | === Linguistic Form === | ||
| + | |||
| + | ** (Personal?) Pronoun (0/1) ** - je kandidát (osobní?) zájmeno? | ||
| + | |||
| + | ** Proper Name (0/1) ** - je kandidát vlastní jméno? | ||
| + | |||
| + | ** General Name (0/1) ** - je kandidát obecné jméno? | ||
| + | |||
| + | ** Demonstrative Noun Phrase (0/1) ** - visí na podstatném jménu anaphoru něco jako " | ||
| + | |||
| + | === Context === | ||
| + | |||
| + | ** POS Left (10 hodnot -> 10 features) ** - POS slova vlevo od kandidáta | ||
| + | |||
| + | ** POS Right (10 hodnot -> 10 features) ** - POS slova vpravo od kandidáta | ||
| + | |||
| + | ** POS Surr (10x10 hodnot -> 100 features) ** - POS slova vlevo a slova vpravo od kandidáta | ||
| + | |||
| + | === Distance === | ||
| + | |||
| + | ** Distance (více hodnot, řádově desítky až stovky features) ** - vzdálenost anaphoru od kandidáta; v čem měřit? (věty, slovesa, slova - možná víc featur)) | ||
| + | |||
| + | === Morphosyntactic Agreement === | ||
| + | |||
| + | ** Number Agreement (0/1) ** - shoda v čísle | ||
| + | |||
| + | ** Gender Agreement (0/1) ** - shoda v rodu | ||
| + | |||
| + | ** Person Agreement (0/1) ** - shoda v osobě (?) | ||
| + | |||
| + | ** Both Proper Names (0/1) ** - (Soon et al. 2001) | ||
| + | |||
| + | === Semantic Similarity === | ||
| + | |||
| + | ** Semantic Similarity ** - WordNet - existuje nástroj pro měření podobnosti slov na základě Wordnetu v Perlu, je částí OpenNLP Toolkitu. Funguje ale na Czech EuroWordNet? | ||
| + | |||
| + | === String Similarity === | ||
| + | |||
| + | ** String Match (0/1) ** - na lemmatech (bez přípon); případně s použitím editační vzdálenosti - více features pro různé hodnoty | ||
| + | |||
| + | ** Left substring (0/1) ** | ||
| + | |||
| + | ** Right substring (0/1) ** | ||
| + | |||
| + | === Apposition === | ||
| + | |||
| + | ** Apposition (0/1) ** - Anja tam možná nedělá šipky? | ||
| + | |||
| + | === Acronym === | ||
| + | |||
| + | ** Acronym (0/1) ** - např. " | ||
| + | |||
| + | === Salience === | ||
| + | |||
| + | ** Salience (více hodnot - řádově do deseti features) ** - pro antecedenty zájmen - aktivovanost v diskurzu (podle Hajičové? | ||
| + | |||
| + | === Vynecháno ze zmíněných článků, co se nehodí pro češtinu (nebo z jiných důvodů) === | ||
| + | - kandidát je definite/ | ||
| + | - Semantic Class Agreement - (female, male, person, organization, | ||
| + | - Head word match - to je featura z Denise, ale co to je? | ||
