Differences

This shows you the differences between two versions of the page.

--- user:zeman:tectomt [2009/10/09 12:31]
zeman Co je zač applications/translation/en2hi?
+++ user:zeman:tectomt [2010/03/17 10:21] (current)
zeman TSD 2010.
@@ Line 32: / Line 32: @@
 ===== Moje aplikace =====
-  * tokenize
+  * applications/tokenize
-  * english_to_hindi
+  * applications/translation/en2hi: Teď jen torzo makefilu, ale plánuju sem přesunout smysluplné věci z /personal/bojar.
-    * translation/en2hi?
+  * applications/reordering/tsd2010: viz též [[user:zeman:tsd2010|zde]]
   * training/rjaz
 Další neuspořádaný kód ve složce ''personal/zeman'': morphochallenge.
+==== Tokenize ====
+Původně šlo o pokusy s&nbsp;nejnižší úrovní zpracování, tedy tokenizace, rozpoznání hranic vět, rozpoznání jazyka. Pak jsem se pokusil to použít naostro na texty z&nbsp;hindské Wikipedie. Momentální obsah složky je tomuto cíli dost podřízen. Mimochodem, s&nbsp;tou Wikipedií jsem moc neuspěl, a to ze dvou důvodů:
+  * Je to moc souborů (přes 20000) a jejich zpracování trvá neúnosně dlouho. Mám podezření, že za to může náročnost otevření jednoho souboru v&nbsp;TectoMT, a taky možná neuvolňování alokované paměti (všiml jsem si příšerného nárůstu paměťových nároků na stroji, na kterém to běželo). Obyčejný tokenizační skript v&nbsp;Perlu by to musel mít hotové nejpozději tak za hodinu.
+  * Některé soubory obsahují příliš dlouhé odstavce (přes 20000 tokenů). Tokenizace a segmentace uvnitř TectoMT znamená vkládání složitých struktur pro uzly, stromy a bundly, což jsou na takovýchto datech příliš drahé operace.
+Poučení: TectoMT se bohužel nedá efektivně použít už od nejnižší úrovně zpracování. Je lepší zařídit si tokenizaci a segmentaci vět na prostém textu a do TectoMT převést teprve výsledek.
 ===== Moje nástroje =====
@@ Line 56: / Line 65: @@
   * resource_data/rjaz: trénovací texty a natrénované frekvenční charakteristiky pro rozpoznávání jazyků
   * resource_data/emille: jen odkaz na /net/data/emille/cd_content
-  * generated_data/english_to_hindi: pokusy s&nbsp;párováním angličtiny, hindštiny a urdštiny z&nbsp;Emilla. Asi se může vyhodit, až ověřím, odkud z&nbsp;''TMT_ROOT'' se na to případně odkazuje.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences