[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Automatické určování koreference

poznámky ke schůzce 29. září

implementace v TectoMT ⇒ můžeme použít existující moduly (analýza případně až na tekto rovinu, nám bude stačit analytická rovina)

segmentace → morfologie → tagging → parsing na analytickou rovinu

Co budou markables?

Podle mne všechna podstatná jména a všechna osobní zájmena. Přinejmenším zpočátku, pak se to může vylepšovat či rozšiřovat. Řídil bych se především potřebami projektu PlayCoref a tím, co je anotováno v projektu Bridging.

Na pojmenované entity bych se vykašlal, alespoň zatím. V datech bridging stejně máme šipky mezi jednotlivými uzly. Sice na tekto rovině, ale projekce do analytické roviny a zpět (tedy i na povrch) je podle mne jednoznačná.

Jak poznat nové uvedení slova do diskurzu od slova, které koreferuje už s něčím dříve zmíněným?

Vidím dvě možnosti:
1) Předřadit modul, který to určí; úspěšnost by však musela být velice vysoká, jinak to považuju za zbytečné snižování celkové úspěšnosti. Nicméně není problém takový modul ve scénáři mít či mít možnost ho tam mít.
2) V rankingu určit mez, kterou musí vítězný kandidát překročit, aby vůbec nějaká koreference byla označena. Může i koexistovat s předchozím modulem.

Jaká metoda, jaké features?

Ranking - ale jaký?

Co bude ranker posuzovat v jednom kroku? Anaphor + 1 kandidát nebo anaphor + kandidát + všichni ostatní kandidáti? Mám pocit, že všichni to dělají jen anaphor + 1 kandidát - tím můžeme začít, ale nechal bych si možnost rozšířit to. Napadá mě featura typu “Je mezi ostatními kandidáty vlastní jméno?”.

Features pro ranking (a jejich váhy) budou různé pro různé typy anaphor (pozná se podle tagu), nejméně tyto tři typy:
- zájmena
- vlastní jména
- ostatní podstatná jména

Features bych vzal z různých článků, např. Denis and Baldridge (2008?), Soon et al. (2001)


[ Back to the navigation ] [ Back to the content ]