Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:dz-parser:icon [2009/11/19 22:21] zeman Průzkum 7 algoritmů Malt parseru. |
user:zeman:dz-parser:icon [2012/10/26 17:04] zeman http://ltrc.iiit.ac.in/mtpil2012/ |
||
---|---|---|---|
Line 1: | Line 1: | ||
+ | ====== Hindi Parsing Shared Task at COLING 2012 Mumbaí ====== | ||
+ | |||
+ | http:// | ||
+ | |||
+ | Zkontrolovat normalizaci UTF-8 (dévanágarí). | ||
+ | HTB verze 0,51: train 12041 sent, 268093 tok? (words), dev 1233 / 26416 | ||
+ | |||
+ | Vyhodnotit samostatně | ||
+ | * LAS vs. UAS | ||
+ | * uvnitř chunku vs. mezi chunky | ||
+ | * pro jednotlivé s-značky | ||
+ | |||
+ | McDonald? | ||
+ | |||
+ | Ambati et al.: MST labeler je blbej, použili maxent (http...lzhang, | ||
+ | |||
+ | A co MST druhého řádu? Ambati et al. použili 2. řád a training-k = 5. | ||
+ | |||
+ | MST jako vstupní featura pro Malt? | ||
+ | |||
+ | Potřebuju nějaké vyhledávadlo a zvýrazňovadlo chyb. | ||
+ | |||
+ | Mohly by pomoct Martinovy transformace? | ||
+ | |||
+ | Co ten neoznačkovaný text? TreeTagger? | ||
+ | |||
====== ICON 2009 NLP Tools Contest ====== | ====== ICON 2009 NLP Tools Contest ====== | ||
Line 5: | Line 31: | ||
===== Zbývá udělat ===== | ===== Zbývá udělat ===== | ||
- | * Více si pohrát s konfigurací Malt parseru. Zejména vyzkoušet všech 7 algoritmů. | + | * Upravit makefile tak, abych mohl pouštět pokusy současně se starými i novými daty. A aby se váhy hlasování automaticky upravovaly podle aktuální úspěšnosti dílčích parserů. |
+ | * Upravit makefile a/nebo skripty pro pouštění Malt parseru tak, aby Malt pro každý jazyk zvolil nejvhodnější algoritmus. | ||
* Více si pohrát s rysy. Naučit se parserům předhazovat rysy. U Malt parseru je to dobře zdokumentováno, | * Více si pohrát s rysy. Naučit se parserům předhazovat rysy. U Malt parseru je to dobře zdokumentováno, | ||
* Přidat jako rys chunk label, a to i pro DZ Parser. | * Přidat jako rys chunk label, a to i pro DZ Parser. | ||
Line 12: | Line 39: | ||
* Vyzkoušet neprojektivní parsing MST parserem. | * Vyzkoušet neprojektivní parsing MST parserem. | ||
* Zjistit, proč je tolik chyb v syntaktickém značkování, | * Zjistit, proč je tolik chyb v syntaktickém značkování, | ||
+ | * Více si pohrát s konfigurací Malt parseru. 7 algoritmů už jsem vyzkoušel, ale některé z& | ||
* Vyhodnotit křivku učení. | * Vyhodnotit křivku učení. | ||
* Vyhodnotit požadavky na procesor, paměť a disk (je třeba nejdříve rozchodit skript). | * Vyhodnotit požadavky na procesor, paměť a disk (je třeba nejdříve rozchodit skript). | ||
* Frekvenční slovníky, abych si trochu udělal představu o častých slovech, případně o jejich syntaktických zvláštnostech. | * Frekvenční slovníky, abych si trochu udělal představu o častých slovech, případně o jejich syntaktických zvláštnostech. | ||
* Průzkum dat: jak dlouhé jsou věty? Indové v dokumentaci nějaká čísla uvádějí, ale tam se slova počítají včetně záložek a možná i včetně interpunkce, | * Průzkum dat: jak dlouhé jsou věty? Indové v dokumentaci nějaká čísla uvádějí, ale tam se slova počítají včetně záložek a možná i včetně interpunkce, | ||
+ | * Neučit se na hindštině a bengálštině dohromady? Jsou to přece podobné jazyky a data by se významně zvětšila! | ||
===== Průzkum dat ===== | ===== Průzkum dat ===== | ||
Line 40: | Line 69: | ||
| bn | 39.52 | 44.14 | | | bn | 39.52 | 44.14 | | ||
| te | 73.75 | 76.89 | | | te | 73.75 | 76.89 | | ||
+ | |||
+ | ==== Nová data pro druhé kolo ==== | ||
+ | |||
+ | Pro druhé vyhodnocení pořadatelé připravili upravená data "with courser tags". Ukázalo se, že nejde o lepší informaci na morfologické rovině, která by případně mohla parsing usnadnit. Jde o syntaktické značky, které má parser produkovat spolu se závislostní strukturou. Otázka je, jestli jsou nové značky jednodušší, | ||
===== Analýza chyb ===== | ===== Analýza chyb ===== |