Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:mirovsky:poznamky-k-automatickemu-urcovani-koreference [2009/09/25 18:44] mirovsky |
user:mirovsky:poznamky-k-automatickemu-urcovani-koreference [2009/10/13 15:18] (current) mirovsky |
||
---|---|---|---|
Line 1: | Line 1: | ||
===== Automatické určování koreference ===== | ===== Automatické určování koreference ===== | ||
- | ==== poznámky ke schůzce 29. září ==== | + | |
Line 15: | Line 15: | ||
Na pojmenované entity bych se vykašlal, alespoň zatím. V datech bridging stejně máme šipky mezi jednotlivými uzly. Sice na tekto rovině, ale projekce do analytické roviny a zpět (tedy i na povrch) je podle mne jednoznačná. | Na pojmenované entity bych se vykašlal, alespoň zatím. V datech bridging stejně máme šipky mezi jednotlivými uzly. Sice na tekto rovině, ale projekce do analytické roviny a zpět (tedy i na povrch) je podle mne jednoznačná. | ||
+ | |||
==== Jak poznat nové uvedení slova do diskurzu od slova, které koreferuje už s něčím dříve zmíněným? | ==== Jak poznat nové uvedení slova do diskurzu od slova, které koreferuje už s něčím dříve zmíněným? | ||
+ | |||
+ | Neboli: Má z daného markable vést někam šipka? Je anaphorem nějakého antecedentu? | ||
Vidím dvě možnosti: | Vidím dvě možnosti: | ||
1) Předřadit modul, který to určí; úspěšnost by však musela být velice vysoká, jinak to považuju za zbytečné snižování celkové úspěšnosti. Nicméně není problém takový modul ve scénáři mít či mít možnost ho tam mít. | 1) Předřadit modul, který to určí; úspěšnost by však musela být velice vysoká, jinak to považuju za zbytečné snižování celkové úspěšnosti. Nicméně není problém takový modul ve scénáři mít či mít možnost ho tam mít. | ||
2) V rankingu určit mez, kterou musí vítězný kandidát překročit, | 2) V rankingu určit mez, kterou musí vítězný kandidát překročit, | ||
+ | |||
==== Kdo budou kandidáti? ==== | ==== Kdo budou kandidáti? ==== | ||
- | Předchozí osobní zájmena a podstatná jména, tedy tytéž markables. Předchozí až do nějaké vzdálenosti nebo všichni až do začátku textu? Respektive přesněji: předchozí diskurzní entity - již existující koreferenční řetězec by měl vystupovat jako jeden kandidát. (Nebudou se tím šířit předchozí chyby?) | + | Předchozí osobní zájmena a podstatná jména, tedy tytéž markables. Předchozí až do nějaké vzdálenosti nebo všichni až do začátku textu? Respektive přesněji: předchozí diskurzní entity - již existující koreferenční řetězec by měl vystupovat jako jeden kandidát. (Nebudou se tím šířit předchozí chyby? |
Narozdíl od některých přístupů bych za antecedent vždy volil nejbližší prvek budoucího koref. řetězce - tzn. i zájmeno může být antecedentem podstatného jména - to je možné právě díky posuzování kandidátů včetně jejich existujícího koref. řetězce. | Narozdíl od některých přístupů bych za antecedent vždy volil nejbližší prvek budoucího koref. řetězce - tzn. i zájmeno může být antecedentem podstatného jména - to je možné právě díky posuzování kandidátů včetně jejich existujícího koref. řetězce. | ||
Line 35: | Line 39: | ||
Co bude ranker posuzovat v jednom kroku? " | Co bude ranker posuzovat v jednom kroku? " | ||
Další možností je využít už existující koreferenční řetězec - neposuzuju kandidáta samostatně, | Další možností je využít už existující koreferenční řetězec - neposuzuju kandidáta samostatně, | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
Line 40: | Line 51: | ||
Features pro ranking (a jejich váhy) budou různé pro různé typy anaphor (pozná se podle tagu), nejméně tyto tři typy: | Features pro ranking (a jejich váhy) budou různé pro různé typy anaphor (pozná se podle tagu), nejméně tyto tři typy: | ||
- | - zájmena | + | - zájmena |
- vlastní jména | - vlastní jména | ||
+ | - demonstrative noun phrase? | ||
- ostatní podstatná jména | - ostatní podstatná jména | ||
- | Features bych pro začátek vzal z různých článků, např. Denis and Baldridge (2008?), Soon et al. (2001); Denis and Baldridge je pěkně rozdělují do skupin podle typu: | + | Features bych pro začátek vzal z různých článků, např. Denis and Baldridge (2008?), Soon et al. (2001); Denis and Baldridge je pěkně rozdělují do skupin podle typu. |
+ | Další features mohou přibýt díky např. stromové struktuře a ohodnocení uzlů analytickými funkcemi. | ||
=== Linguistic Form === | === Linguistic Form === | ||
- | Sleduje, zda kandidát | + | ** (Personal?) Pronoun (0/1) ** - je kandidát (osobní? |
- | Dále: | + | ** Proper Name (0/1) ** - je kandidát vlastní jméno? |
- | ** Demonstrative Noun Phrase ** - visí na podstatném jménu anaphoru něco jako " | + | ** General Name (0/1) ** - je kandidát obecné jméno? |
+ | |||
+ | ** Demonstrative Noun Phrase | ||
=== Context === | === Context === | ||
- | POS slov kolem kandidáta (3 featury: před, po, oba okolo) | + | ** POS Left (10 hodnot -> 10 features) ** - POS slova vlevo od kandidáta |
+ | |||
+ | ** POS Right (10 hodnot -> 10 features) ** - POS slova vpravo od kandidáta | ||
+ | |||
+ | ** POS Surr (10x10 hodnot -> 100 features) ** - POS slova vlevo a slova vpravo od kandidáta | ||
=== Distance === | === Distance === | ||
- | ** Distance ** - vzdálenost anaphoru od kandidáta; v čem měřit? (věty, slovesa, slova - možná víc featur)) | + | ** Distance |
=== Morphosyntactic Agreement === | === Morphosyntactic Agreement === | ||
- | ** Number Agreement ** - shoda v čísle | + | ** Number Agreement |
- | ** Gender Agreement ** - shoda v rodu | + | ** Gender Agreement |
- | ** Person Agreement ** - shoda v osobě (?) | + | ** Person Agreement |
- | ** Both Proper Names ** - (Soon et al. 2001) | + | ** Both Proper Names (0/1) ** - (Soon et al. 2001) |
=== Semantic Similarity === | === Semantic Similarity === | ||
- | ** Semantic Similarity ** - WordNet - existuje nástroj pro měření podobnosti slov na základě Wordnetu v Perlu, je částí OpenNLP Toolkitu. | + | ** Semantic Similarity ** - WordNet - existuje nástroj pro měření podobnosti slov na základě Wordnetu v Perlu, je částí OpenNLP Toolkitu. |
=== String Similarity === | === String Similarity === | ||
- | ** String Match ** - na lemmatech (bez přípon) | + | ** String Match (0/1) ** - na lemmatech (bez přípon); případně s použitím |
- | ** Left substring ** | + | ** Left substring |
- | ** Right substring ** | + | ** Right substring |
- | + | ||
- | ** Head word match ** - to je featura z Denise, ale co to je? | + | |
=== Apposition === | === Apposition === | ||
- | ** Apposition ** - Anja tam možná nedělá šipky? | + | ** Apposition |
=== Acronym === | === Acronym === | ||
- | ** Acronym ** - např. " | + | ** Acronym |
+ | |||
+ | === Salience === | ||
+ | |||
+ | ** Salience (více hodnot - řádově do deseti features) ** - pro antecedenty zájmen - aktivovanost v diskurzu (podle Hajičové? | ||
=== Vynecháno ze zmíněných článků, co se nehodí pro češtinu (nebo z jiných důvodů) === | === Vynecháno ze zmíněných článků, co se nehodí pro češtinu (nebo z jiných důvodů) === | ||
Line 98: | Line 119: | ||
- kandidát je definite/ | - kandidát je definite/ | ||
- Semantic Class Agreement - (female, male, person, organization, | - Semantic Class Agreement - (female, male, person, organization, | ||
+ | - Head word match - to je featura z Denise, ale co to je? | ||
+ | |||