[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
user:zeman:tectomt [2009/10/09 12:15]
zeman Doplněna sdílená data.
user:zeman:tectomt [2009/10/09 13:33]
zeman Poznámky k tokenizaci.
Line 31: Line 31:
 ===== Moje aplikace ===== ===== Moje aplikace =====
  
-  * tokenize +  * applications/tokenize 
-  * english_to_hindi+  * applications/translation/en2hi: Teď jen torzo makefilu, ale plánuju sem přesunout smysluplné věci z /personal/bojar.
   * training/rjaz   * training/rjaz
  
 Další neuspořádaný kód ve složce ''personal/zeman'': morphochallenge. Další neuspořádaný kód ve složce ''personal/zeman'': morphochallenge.
 +
 +==== Tokenize ====
 +
 +Původně šlo o pokusy s nejnižší úrovní zpracování, tedy tokenizace, rozpoznání hranic vět, rozpoznání jazyka. Pak jsem se pokusil to použít naostro na texty z hindské Wikipedie. Momentální obsah složky je tomuto cíli dost podřízen. Mimochodem, s tou Wikipedií jsem moc neuspěl, a to ze dvou důvodů:
 +
 +  * Je to moc souborů (přes 20000) a jejich zpracování trvá neúnosně dlouho. Mám podezření, že za to může náročnost otevření jednoho souboru v TectoMT, a taky možná neuvolňování alokované paměti (všiml jsem si příšerného nárůstu paměťových nároků na stroji, na kterém to běželo). Obyčejný tokenizační skript v Perlu by to musel mít hotové nejpozději tak za hodinu.
 +  * Některé soubory obsahují příliš dlouhé odstavce (přes 20000 tokenů). Tokenizace a segmentace uvnitř TectoMT znamená vkládání složitých struktur pro uzly, stromy a bundly, což jsou na takovýchto datech příliš drahé operace.
 +
 +Poučení: TectoMT se bohužel nedá efektivně použít už od nejnižší úrovně zpracování. Je lepší zařídit si tokenizaci a segmentaci vět na prostém textu a do TectoMT převést teprve výsledek.
  
 ===== Moje nástroje ===== ===== Moje nástroje =====
Line 54: Line 63:
   * resource_data/rjaz: trénovací texty a natrénované frekvenční charakteristiky pro rozpoznávání jazyků   * resource_data/rjaz: trénovací texty a natrénované frekvenční charakteristiky pro rozpoznávání jazyků
   * resource_data/emille: jen odkaz na /net/data/emille/cd_content   * resource_data/emille: jen odkaz na /net/data/emille/cd_content
-  * generated_data/english_to_hindi: pokusy s párováním angličtiny, hindštiny a urdštiny z Emilla. Asi se může vyhodit, až ověřím, odkud z ''TMT_ROOT'' se na to případně odkazuje.+

[ Back to the navigation ] [ Back to the content ]