Differences

This shows you the differences between two versions of the page.

--- user:zeman:dz-parser:icon [2009/11/19 22:24]
zeman Změna priorit u Malt parseru.
+++ user:zeman:dz-parser:icon [2009/12/08 17:33]
zeman Bláznivý nápad: hi+bn.
@@ Line 2: / Line 2: @@
 Soutěž v závislostní syntaktické analýze hindštiny, bengálštiny a telugštiny. Něco jako CoNLL-X a 2007 shared task, ale pro indické jazyky. Tentokrát nezkouším jen DZ Parser, ale hlasující kombinaci tří parserů: Malt parseru, MST parseru a DZ parseru.
 ===== Zbývá udělat =====
+  * Upravit makefile tak, abych mohl pouštět pokusy současně se starými i novými daty. A aby se váhy hlasování automaticky upravovaly podle aktuální úspěšnosti dílčích parserů.
+  * Upravit makefile a/nebo skripty pro pouštění Malt parseru tak, aby Malt pro každý jazyk zvolil nejvhodnější algoritmus.
   * Více si pohrát s rysy. Naučit se parserům předhazovat rysy. U Malt parseru je to dobře zdokumentováno, u MST ne.
   * Přidat jako rys chunk label, a to i pro DZ Parser.
@@ Line 17: / Line 18: @@
   * Frekvenční slovníky, abych si trochu udělal představu o častých slovech, případně o jejich syntaktických zvláštnostech.
   * Průzkum dat: jak dlouhé jsou věty? Indové v dokumentaci nějaká čísla uvádějí, ale tam se slova počítají včetně záložek a možná i včetně interpunkce, takže neodpovídají počtu uzlů, které vidím v treebanku.
+  * Neučit se na hindštině a bengálštině dohromady? Jsou to přece podobné jazyky a data by se významně zvětšila!
 ===== Průzkum dat =====
@@ Line 41: / Line 43: @@
 | bn | 39.52 | 44.14 |
 | te | 73.75 | 76.89 |
+==== Nová data pro druhé kolo ====
+Pro druhé vyhodnocení pořadatelé připravili upravená data "with courser tags". Ukázalo se, že nejde o lepší informaci na morfologické rovině, která by případně mohla parsing usnadnit. Jde o syntaktické značky, které má parser produkovat spolu se závislostní strukturou. Otázka je, jestli jsou nové značky jednodušší, nebo složitější než ty staré, ale každopádně by měly ovlivnit výhradně značkovanou úspěšnost.
 ===== Analýza chyb =====

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences