[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:dz-parser:icon [2012/12/07 13:50]
zeman Mumbaī
user:zeman:dz-parser:icon [2012/12/07 13:57]
zeman Udělat.
Line 3: Line 3:
 http://ltrc.iiit.ac.in/mtpil2012/ http://ltrc.iiit.ac.in/mtpil2012/
  
-Zkontrolovat normalizaci UTF-8 (dévanágarí).+===== Udělat ===== 
 + 
 +  * Natrénovat McDonaldův MST parser. Pokud možno s pořádnými rysy, neprojektivně a druhý řád. Ale na druhou stranu, aby to taky někdy doběhlo. 
 +    * Ambati et al. použili 2. řád a training-k = 5. 
 +  * Zkontrolovat normalizaci UTF-8 (dévanágarí). 
 +  * Natrénovat Malt parser a mezi rysy mu přidat hypotézu od MST (parser MST-Malt podle Joakimova a Ryanova článku). 
 +  * Natrénovat samostatný značkovač syntaktických značek. Ambati et al.: MST labeler je blbej, použili maxent (http...lzhang, viz článek). A říkají tam, které rysy a uzly stromu od parseru zkoumali. 
 +  * Potřebuju nějaké vyhledávadlo a zvýrazňovadlo chyb. 
 +  * Opravit normalizaci pro HamleDT. Normalizace hindštiny prý dělá na nových datech mnohem více chyb (uzel pod Coord nemá is_member apod.) Mohly by mi pomoct Martinovy transformace koordinací? 
 HTB verze 0,51: train 12041 sent, 268093 tok? (words), dev 1233 / 26416 HTB verze 0,51: train 12041 sent, 268093 tok? (words), dev 1233 / 26416
  
Line 10: Line 19:
   * uvnitř chunku vs. mezi chunky   * uvnitř chunku vs. mezi chunky
   * pro jednotlivé s-značky   * pro jednotlivé s-značky
- 
-McDonald? 
- 
-Ambati et al.: MST labeler je blbej, použili maxent (http...lzhang, viz článek). A říkají tam, které featury / uzly stromu od parseru zkoumali. 
- 
-A co MST druhého řádu? Ambati et al. použili 2. řád a training-k = 5. 
- 
-MST jako vstupní featura pro Malt? 
- 
-Potřebuju nějaké vyhledávadlo a zvýrazňovadlo chyb. 
- 
-Mohly by pomoct Martinovy transformace? Normalizace hindštiny prý dělá na nových datech mnohem více chyb (uzel pod Coord nemá is_member apod.) 
- 
-Co ten neoznačkovaný text? TreeTagger? 
  
 ====== ICON 2009 NLP Tools Contest ====== ====== ICON 2009 NLP Tools Contest ======

[ Back to the navigation ] [ Back to the content ]