[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:zeman:tectomt [2009/10/09 12:31]
zeman Co je zač applications/translation/en2hi?
user:zeman:tectomt [2010/03/17 10:21] (current)
zeman TSD 2010.
Line 32: Line 32:
 ===== Moje aplikace ===== ===== Moje aplikace =====
  
-  * tokenize +  * applications/tokenize 
-  * english_to_hindi +  * applications/translation/en2hi: Teď jen torzo makefilu, ale plánuju sem přesunout smysluplné věci z /personal/bojar. 
-    * translation/en2hi?+  * applications/reordering/tsd2010: viz též [[user:zeman:tsd2010|zde]]
   * training/rjaz   * training/rjaz
  
 Další neuspořádaný kód ve složce ''personal/zeman'': morphochallenge. Další neuspořádaný kód ve složce ''personal/zeman'': morphochallenge.
 +
 +==== Tokenize ====
 +
 +Původně šlo o pokusy s nejnižší úrovní zpracování, tedy tokenizace, rozpoznání hranic vět, rozpoznání jazyka. Pak jsem se pokusil to použít naostro na texty z hindské Wikipedie. Momentální obsah složky je tomuto cíli dost podřízen. Mimochodem, s tou Wikipedií jsem moc neuspěl, a to ze dvou důvodů:
 +
 +  * Je to moc souborů (přes 20000) a jejich zpracování trvá neúnosně dlouho. Mám podezření, že za to může náročnost otevření jednoho souboru v TectoMT, a taky možná neuvolňování alokované paměti (všiml jsem si příšerného nárůstu paměťových nároků na stroji, na kterém to běželo). Obyčejný tokenizační skript v Perlu by to musel mít hotové nejpozději tak za hodinu.
 +  * Některé soubory obsahují příliš dlouhé odstavce (přes 20000 tokenů). Tokenizace a segmentace uvnitř TectoMT znamená vkládání složitých struktur pro uzly, stromy a bundly, což jsou na takovýchto datech příliš drahé operace.
 +
 +Poučení: TectoMT se bohužel nedá efektivně použít už od nejnižší úrovně zpracování. Je lepší zařídit si tokenizaci a segmentaci vět na prostém textu a do TectoMT převést teprve výsledek.
  
 ===== Moje nástroje ===== ===== Moje nástroje =====
Line 56: Line 65:
   * resource_data/rjaz: trénovací texty a natrénované frekvenční charakteristiky pro rozpoznávání jazyků   * resource_data/rjaz: trénovací texty a natrénované frekvenční charakteristiky pro rozpoznávání jazyků
   * resource_data/emille: jen odkaz na /net/data/emille/cd_content   * resource_data/emille: jen odkaz na /net/data/emille/cd_content
-  * generated_data/english_to_hindi: pokusy s párováním angličtiny, hindštiny a urdštiny z Emilla. Asi se může vyhodit, až ověřím, odkud z ''TMT_ROOT'' se na to případně odkazuje.+

[ Back to the navigation ] [ Back to the content ]