Differences
This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
user:mirovsky:poznamky-k-automatickemu-urcovani-koreference [2009/09/29 09:38] mirovsky |
user:mirovsky:poznamky-k-automatickemu-urcovani-koreference [2009/10/13 15:18] (current) mirovsky |
||
|---|---|---|---|
| Line 1: | Line 1: | ||
| ===== Automatické určování koreference ===== | ===== Automatické určování koreference ===== | ||
| - | ==== poznámky ke schůzce 29. září ==== | + | |
| Line 39: | Line 39: | ||
| Co bude ranker posuzovat v jednom kroku? " | Co bude ranker posuzovat v jednom kroku? " | ||
| Další možností je využít už existující koreferenční řetězec - neposuzuju kandidáta samostatně, | Další možností je využít už existující koreferenční řetězec - neposuzuju kandidáta samostatně, | ||
| + | |||
| + | |||
| + | |||
| + | |||
| Line 47: | Line 51: | ||
| Features pro ranking (a jejich váhy) budou různé pro různé typy anaphor (pozná se podle tagu), nejméně tyto tři typy: | Features pro ranking (a jejich váhy) budou různé pro různé typy anaphor (pozná se podle tagu), nejméně tyto tři typy: | ||
| - | - zájmena | + | - zájmena |
| - vlastní jména | - vlastní jména | ||
| + | - demonstrative noun phrase? | ||
| - ostatní podstatná jména | - ostatní podstatná jména | ||
| - | Features bych pro začátek vzal z různých článků, např. Denis and Baldridge (2008?), Soon et al. (2001); Denis and Baldridge je pěkně rozdělují do skupin podle typu: | + | Features bych pro začátek vzal z různých článků, např. Denis and Baldridge (2008?), Soon et al. (2001); Denis and Baldridge je pěkně rozdělují do skupin podle typu. |
| + | Další features mohou přibýt díky např. stromové struktuře a ohodnocení uzlů analytickými funkcemi. | ||
| === Linguistic Form === | === Linguistic Form === | ||
| - | ** Personal Pronoun ** - je kandidát osobní zájmeno? | + | ** (Personal?) Pronoun |
| - | ** Proper Name ** - je kandidát vlastní jméno? | + | ** Proper Name (0/1) ** - je kandidát vlastní jméno? |
| - | ** General Name ** - je kandidát obecné jméno? | + | ** General Name (0/1) ** - je kandidát obecné jméno? |
| - | ** Demonstrative Noun Phrase ** - visí na podstatném jménu anaphoru něco jako " | + | ** Demonstrative Noun Phrase |
| === Context === | === Context === | ||
| - | ** POS Left ** - POS slova vlevo od kandidáta | + | ** POS Left (10 hodnot -> 10 features) |
| - | ** POS Right ** - POS slova vpravo od kandidáta | + | ** POS Right (10 hodnot -> 10 features) |
| - | ** POS Surr ** - POS slova vlevo a slova vpravo od kandidáta | + | ** POS Surr (10x10 hodnot -> 100 features) |
| === Distance === | === Distance === | ||
| - | ** Distance ** - vzdálenost anaphoru od kandidáta; v čem měřit? (věty, slovesa, slova - možná víc featur)) | + | ** Distance |
| === Morphosyntactic Agreement === | === Morphosyntactic Agreement === | ||
| - | ** Number Agreement ** - shoda v čísle | + | ** Number Agreement |
| - | ** Gender Agreement ** - shoda v rodu | + | ** Gender Agreement |
| - | ** Person Agreement ** - shoda v osobě (?) | + | ** Person Agreement |
| - | ** Both Proper Names ** - (Soon et al. 2001) | + | ** Both Proper Names (0/1) ** - (Soon et al. 2001) |
| === Semantic Similarity === | === Semantic Similarity === | ||
| - | ** Semantic Similarity ** - WordNet - existuje nástroj pro měření podobnosti slov na základě Wordnetu v Perlu, je částí OpenNLP Toolkitu. | + | ** Semantic Similarity ** - WordNet - existuje nástroj pro měření podobnosti slov na základě Wordnetu v Perlu, je částí OpenNLP Toolkitu. |
| === String Similarity === | === String Similarity === | ||
| - | ** String Match ** - na lemmatech (bez přípon) | + | ** String Match (0/1) ** - na lemmatech (bez přípon); případně s použitím |
| - | ** Left substring ** | + | ** Left substring |
| - | ** Right substring ** | + | ** Right substring |
| === Apposition === | === Apposition === | ||
| - | ** Apposition ** - Anja tam možná nedělá šipky? | + | ** Apposition |
| === Acronym === | === Acronym === | ||
| - | ** Acronym ** - např. " | + | ** Acronym |
| === Salience === | === Salience === | ||
| - | ** Salience ** - pro antecedenty zájmen - aktivovanost v diskurzu (podle Hajičové? | + | ** Salience |
| === Vynecháno ze zmíněných článků, co se nehodí pro češtinu (nebo z jiných důvodů) === | === Vynecháno ze zmíněných článků, co se nehodí pro češtinu (nebo z jiných důvodů) === | ||
