[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:zeman:tectomt [2009/10/09 13:16]
zeman Upřesnění cest k aplikacím.
user:zeman:tectomt [2010/03/17 10:21] (current)
zeman TSD 2010.
Line 28: Line 28:
   * Print::Train_rjaz   * Print::Train_rjaz
   * Print::Rjaz   * Print::Rjaz
- 
- 
  
  
Line 36: Line 34:
   * applications/tokenize   * applications/tokenize
   * applications/translation/en2hi: Teď jen torzo makefilu, ale plánuju sem přesunout smysluplné věci z /personal/bojar.   * applications/translation/en2hi: Teď jen torzo makefilu, ale plánuju sem přesunout smysluplné věci z /personal/bojar.
 +  * applications/reordering/tsd2010: viz též [[user:zeman:tsd2010|zde]]
   * training/rjaz   * training/rjaz
  
 Další neuspořádaný kód ve složce ''personal/zeman'': morphochallenge. Další neuspořádaný kód ve složce ''personal/zeman'': morphochallenge.
 +
 +==== Tokenize ====
 +
 +Původně šlo o pokusy s nejnižší úrovní zpracování, tedy tokenizace, rozpoznání hranic vět, rozpoznání jazyka. Pak jsem se pokusil to použít naostro na texty z hindské Wikipedie. Momentální obsah složky je tomuto cíli dost podřízen. Mimochodem, s tou Wikipedií jsem moc neuspěl, a to ze dvou důvodů:
 +
 +  * Je to moc souborů (přes 20000) a jejich zpracování trvá neúnosně dlouho. Mám podezření, že za to může náročnost otevření jednoho souboru v TectoMT, a taky možná neuvolňování alokované paměti (všiml jsem si příšerného nárůstu paměťových nároků na stroji, na kterém to běželo). Obyčejný tokenizační skript v Perlu by to musel mít hotové nejpozději tak za hodinu.
 +  * Některé soubory obsahují příliš dlouhé odstavce (přes 20000 tokenů). Tokenizace a segmentace uvnitř TectoMT znamená vkládání složitých struktur pro uzly, stromy a bundly, což jsou na takovýchto datech příliš drahé operace.
 +
 +Poučení: TectoMT se bohužel nedá efektivně použít už od nejnižší úrovně zpracování. Je lepší zařídit si tokenizaci a segmentaci vět na prostém textu a do TectoMT převést teprve výsledek.
  
 ===== Moje nástroje ===== ===== Moje nástroje =====
Line 52: Line 60:
   * block_utils/apply_blocks_on_tmt_files.pl   * block_utils/apply_blocks_on_tmt_files.pl
   * cluster_utils/qsub.csh   * cluster_utils/qsub.csh
- 
  
 ===== Moje data v TMT_SHARED ===== ===== Moje data v TMT_SHARED =====

[ Back to the navigation ] [ Back to the content ]