[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:mirovsky:poznamky-k-automatickemu-urcovani-koreference [2009/09/25 18:53]
mirovsky
user:mirovsky:poznamky-k-automatickemu-urcovani-koreference [2009/10/13 15:18] (current)
mirovsky
Line 1: Line 1:
 ===== Automatické určování koreference ===== ===== Automatické určování koreference =====
  
-==== poznámky ke schůzce 29. září ====+
  
  
Line 39: Line 39:
 Co bude ranker posuzovat v jednom kroku? "Anaphor + 1 kandidát" nebo "anaphor + kandidát + všichni ostatní kandidáti"? Mám pocit, že všichni to dělají jen "anaphor + 1 kandidát" - tím můžeme začít, ale nechal bych si možnost rozšířit to. Napadá mě featura typu "Je mezi ostatními kandidáty vlastní jméno?". Co bude ranker posuzovat v jednom kroku? "Anaphor + 1 kandidát" nebo "anaphor + kandidát + všichni ostatní kandidáti"? Mám pocit, že všichni to dělají jen "anaphor + 1 kandidát" - tím můžeme začít, ale nechal bych si možnost rozšířit to. Napadá mě featura typu "Je mezi ostatními kandidáty vlastní jméno?".
 Další možností je využít už existující koreferenční řetězec - neposuzuju kandidáta samostatně, ale už i s jeho koreferenty - mám pocit, že už to někdo někde takhle taky dělal (?). Kandidát pak dostane skóre na základě "shody" i s těmi koreferenty. Další možností je využít už existující koreferenční řetězec - neposuzuju kandidáta samostatně, ale už i s jeho koreferenty - mám pocit, že už to někdo někde takhle taky dělal (?). Kandidát pak dostane skóre na základě "shody" i s těmi koreferenty.
 +
 +
 +
 +
 +
  
  
Line 46: Line 51:
  
 Features pro ranking (a jejich váhy) budou různé pro různé typy anaphor (pozná se podle tagu), nejméně tyto tři typy: Features pro ranking (a jejich váhy) budou různé pro různé typy anaphor (pozná se podle tagu), nejméně tyto tři typy:
-- zájmena+- zájmena (zájmen je více; jaká rozlišovat? Osobní zájmena (v klitice, plné formě), další zájmena?)
 - vlastní jména - vlastní jména
 +- demonstrative noun phrase?
 - ostatní podstatná jména - ostatní podstatná jména
  
-Features bych pro začátek vzal z různých článků, např. Denis and Baldridge (2008?), Soon et al. (2001); Denis and Baldridge je pěkně rozdělují do skupin podle typu:+Features bych pro začátek vzal z různých článků, např. Denis and Baldridge (2008?), Soon et al. (2001); Denis and Baldridge je pěkně rozdělují do skupin podle typu
 +Další features mohou přibýt díky např. stromové struktuře a ohodnocení uzlů analytickými funkcemi.
  
 === Linguistic Form === === Linguistic Form ===
  
-** Personal Pronoun ** - je kandidát osobní zájmeno?+** (Personal?) Pronoun (0/1) ** - je kandidát (osobní?) zájmeno?
  
-** Proper Name ** - je kandidát vlastní jméno?+** Proper Name (0/1) ** - je kandidát vlastní jméno?
  
-** General Name ** - je kandidát obecné jméno?+** General Name (0/1) ** - je kandidát obecné jméno?
  
-** Demonstrative Noun Phrase ** - visí na podstatném jménu anaphoru něco jako "tento, tato apod."? Je stejné pro všechny kandidáty! Ale vhodné pro rozhodování, zda z daného uzlu vést šipku nebo ne.+** Demonstrative Noun Phrase (0/1) ** - visí na podstatném jménu anaphoru něco jako "tento, tato apod."? Je stejné pro všechny kandidáty! Ale vhodné pro rozhodování, zda z daného uzlu vést šipku nebo ne.
  
 === Context === === Context ===
  
-** POS Left ** - POS slova vlevo od kandidáta+** POS Left (10 hodnot -> 10 features) ** - POS slova vlevo od kandidáta
  
-** POS Right ** - POS slova vpravo od kandidáta+** POS Right (10 hodnot -> 10 features) ** - POS slova vpravo od kandidáta
  
-** POS Surr ** - POS slova vlevo a slova vpravo od kandidáta+** POS Surr (10x10 hodnot -> 100 features) ** - POS slova vlevo a slova vpravo od kandidáta
  
 === Distance === === Distance ===
  
-** Distance ** - vzdálenost anaphoru od kandidáta; v čem měřit? (věty, slovesa, slova - možná víc featur))+** Distance (více hodnot, řádově desítky až stovky features) ** - vzdálenost anaphoru od kandidáta; v čem měřit? (věty, slovesa, slova - možná víc featur))
  
 === Morphosyntactic Agreement === === Morphosyntactic Agreement ===
  
-** Number Agreement ** - shoda v čísle+** Number Agreement (0/1) ** - shoda v čísle
  
-** Gender Agreement ** - shoda v rodu+** Gender Agreement (0/1) ** - shoda v rodu
  
-** Person Agreement ** - shoda v osobě (?)+** Person Agreement (0/1) ** - shoda v osobě (?)
  
-** Both Proper Names ** - (Soon et al. 2001)+** Both Proper Names (0/1) ** - (Soon et al. 2001)
  
 === Semantic Similarity === === Semantic Similarity ===
  
-** Semantic Similarity ** - WordNet - existuje nástroj pro měření podobnosti slov na základě Wordnetu v Perlu, je částí OpenNLP Toolkitu.+** Semantic Similarity ** - WordNet - existuje nástroj pro měření podobnosti slov na základě Wordnetu v Perlu, je částí OpenNLP Toolkitu. Funguje ale na Czech EuroWordNet? Také by šla použít podobnost na základě Wikipedie (Ponzetto & Strube, 2006)
  
 === String Similarity === === String Similarity ===
  
-** String Match ** - na lemmatech (bez přípon) - binární (0/1) nebo editační vzdálenost?+** String Match (0/1) ** - na lemmatech (bez přípon); případně s použitím editační vzdálenosti - více features pro různé hodnoty
  
-** Left substring **+** Left substring (0/1) **
  
-** Right substring **+** Right substring (0/1) **
  
 === Apposition === === Apposition ===
  
-** Apposition ** - Anja tam možná nedělá šipky?+** Apposition (0/1) ** - Anja tam možná nedělá šipky?
  
 === Acronym === === Acronym ===
  
-** Acronym ** - např. "ČR" a "republika, na které visí česká" - tady můžeme dobře využít analytickou rovinu+** Acronym (0/1) ** - např. "ČR" a "republika, na které visí česká" - tady můžeme dobře využít analytickou rovinu 
 + 
 +=== Salience === 
 + 
 +** Salience (více hodnot - řádově do deseti features) ** - pro antecedenty zájmen - aktivovanost v diskurzu (podle Hajičové?)
  
 === Vynecháno ze zmíněných článků, co se nehodí pro češtinu (nebo z jiných důvodů) === === Vynecháno ze zmíněných článků, co se nehodí pro češtinu (nebo z jiných důvodů) ===

[ Back to the navigation ] [ Back to the content ]