[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:dz-parser:icon [2009/11/19 22:21]
zeman Průzkum 7 algoritmů Malt parseru.
user:zeman:dz-parser:icon [2009/11/19 22:24]
zeman Změna priorit u Malt parseru.
Line 2: Line 2:
  
 Soutěž v závislostní syntaktické analýze hindštiny, bengálštiny a telugštiny. Něco jako CoNLL-X a 2007 shared task, ale pro indické jazyky. Tentokrát nezkouším jen DZ Parser, ale hlasující kombinaci tří parserů: Malt parseru, MST parseru a DZ parseru. Soutěž v závislostní syntaktické analýze hindštiny, bengálštiny a telugštiny. Něco jako CoNLL-X a 2007 shared task, ale pro indické jazyky. Tentokrát nezkouším jen DZ Parser, ale hlasující kombinaci tří parserů: Malt parseru, MST parseru a DZ parseru.
 +
  
 ===== Zbývá udělat ===== ===== Zbývá udělat =====
  
-  * Více si pohrát s konfigurací Malt parseru. Zejména vyzkoušet všech 7 algoritmů. 
   * Více si pohrát s rysy. Naučit se parserům předhazovat rysy. U Malt parseru je to dobře zdokumentováno, u MST ne.   * Více si pohrát s rysy. Naučit se parserům předhazovat rysy. U Malt parseru je to dobře zdokumentováno, u MST ne.
   * Přidat jako rys chunk label, a to i pro DZ Parser.   * Přidat jako rys chunk label, a to i pro DZ Parser.
Line 12: Line 12:
   * Vyzkoušet neprojektivní parsing MST parserem.   * Vyzkoušet neprojektivní parsing MST parserem.
   * Zjistit, proč je tolik chyb v syntaktickém značkování, a vylepšit ho. Třeba pomocí nějakého toolkitu pro strojové učení (Mallet apod.) Uvědomit si, že na jednom slovesu zřejmě nemohou viset dvě káčka se stejnými čísly (karma-karta). Taky že většina sloves asi vyžaduje k1.   * Zjistit, proč je tolik chyb v syntaktickém značkování, a vylepšit ho. Třeba pomocí nějakého toolkitu pro strojové učení (Mallet apod.) Uvědomit si, že na jednom slovesu zřejmě nemohou viset dvě káčka se stejnými čísly (karma-karta). Taky že většina sloves asi vyžaduje k1.
 +  * Více si pohrát s konfigurací Malt parseru. 7 algoritmů už jsem vyzkoušel, ale některé z nich mají ještě další parametry (práce s kořenem apod.), které jsem neměnil.
   * Vyhodnotit křivku učení.   * Vyhodnotit křivku učení.
   * Vyhodnotit požadavky na procesor, paměť a disk (je třeba nejdříve rozchodit skript).   * Vyhodnotit požadavky na procesor, paměť a disk (je třeba nejdříve rozchodit skript).

[ Back to the navigation ] [ Back to the content ]