Differences

This shows you the differences between two versions of the page.

--- user:zeman:dz-parser:icon [2009/11/19 22:30]
zeman Nová data?
+++ user:zeman:dz-parser:icon [2012/10/24 12:01]
zeman
@@ Line 1: / Line 1: @@
+====== Hindi Parsing Shared Task at COLING 2012 Mumbaí ======
+Zkontrolovat normalizaci UTF-8 (dévanágarí).
+HTB verze 0,51: train 12041 sent, 268093 tok? (words), dev 1233 / 26416
+Vyhodnotit samostatně
+  * LAS vs. UAS
+  * uvnitř chunku vs. mezi chunky
+  * pro jednotlivé s-značky
+McDonald?
+Ambati et al.: MST labeler je blbej, použili maxent (http...lzhang, viz článek). A říkají tam, které featury / uzly stromu od parseru zkoumali.
+A co MST druhého řádu? Ambati et al. použili 2. řád a training-k = 5.
+MST jako vstupní featura pro Malt?
+Potřebuju nějaké vyhledávadlo a zvýrazňovadlo chyb.
+Mohly by pomoct Martinovy transformace? Normalizace hindštiny prý dělá na nových datech mnohem více chyb (uzel pod Coord nemá is_member apod.)
+Co ten neoznačkovaný text? TreeTagger?
 ====== ICON 2009 NLP Tools Contest ======
@@ Line 5: / Line 29: @@
 ===== Zbývá udělat =====
-  * Zjistit, čím se liší nová data, která pořadatelé zveřejnili po prvním vyhodnocení, a jaká mi na nich vychází úspěšnost.
+  * Upravit makefile tak, abych mohl pouštět pokusy současně se starými i novými daty. A aby se váhy hlasování automaticky upravovaly podle aktuální úspěšnosti dílčích parserů.
+  * Upravit makefile a/nebo skripty pro pouštění Malt parseru tak, aby Malt pro každý jazyk zvolil nejvhodnější algoritmus.
   * Více si pohrát s rysy. Naučit se parserům předhazovat rysy. U Malt parseru je to dobře zdokumentováno, u MST ne.
   * Přidat jako rys chunk label, a to i pro DZ Parser.
@@ Line 17: / Line 42: @@
   * Frekvenční slovníky, abych si trochu udělal představu o častých slovech, případně o jejich syntaktických zvláštnostech.
   * Průzkum dat: jak dlouhé jsou věty? Indové v dokumentaci nějaká čísla uvádějí, ale tam se slova počítají včetně záložek a možná i včetně interpunkce, takže neodpovídají počtu uzlů, které vidím v treebanku.
+  * Neučit se na hindštině a bengálštině dohromady? Jsou to přece podobné jazyky a data by se významně zvětšila!
 ===== Průzkum dat =====
@@ Line 41: / Line 67: @@
 | bn | 39.52 | 44.14 |
 | te | 73.75 | 76.89 |
+==== Nová data pro druhé kolo ====
+Pro druhé vyhodnocení pořadatelé připravili upravená data "with courser tags". Ukázalo se, že nejde o lepší informaci na morfologické rovině, která by případně mohla parsing usnadnit. Jde o syntaktické značky, které má parser produkovat spolu se závislostní strukturou. Otázka je, jestli jsou nové značky jednodušší, nebo složitější než ty staré, ale každopádně by měly ovlivnit výhradně značkovanou úspěšnost.
 ===== Analýza chyb =====

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences