Differences
This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
| user:zeman:tectomt [2009/10/09 13:14] zeman Odstraněno generated_data: starý pokus, už nepotřebuju. | user:zeman:tectomt [2010/03/17 10:21] (current) zeman TSD 2010. | ||
|---|---|---|---|
| Line 28: | Line 28: | ||
| * Print:: | * Print:: | ||
| * Print::Rjaz | * Print::Rjaz | ||
| - | |||
| ===== Moje aplikace ===== | ===== Moje aplikace ===== | ||
| - | * tokenize | + | * applications/ | 
| - | * translation/ | + | * applications/ | 
| + | * applications/ | ||
| * training/ | * training/ | ||
| Další neuspořádaný kód ve složce '' | Další neuspořádaný kód ve složce '' | ||
| + | |||
| + | ==== Tokenize ==== | ||
| + | |||
| + | Původně šlo o pokusy s& | ||
| + | |||
| + | * Je to moc souborů (přes 20000) a jejich zpracování trvá neúnosně dlouho. Mám podezření, | ||
| + | * Některé soubory obsahují příliš dlouhé odstavce (přes 20000 tokenů). Tokenizace a segmentace uvnitř TectoMT znamená vkládání složitých struktur pro uzly, stromy a bundly, což jsou na takovýchto datech příliš drahé operace. | ||
| + | |||
| + | Poučení: TectoMT se bohužel nedá efektivně použít už od nejnižší úrovně zpracování. Je lepší zařídit si tokenizaci a segmentaci vět na prostém textu a do TectoMT převést teprve výsledek. | ||
| ===== Moje nástroje ===== | ===== Moje nástroje ===== | ||
| Line 51: | Line 60: | ||
| * block_utils/ | * block_utils/ | ||
| * cluster_utils/ | * cluster_utils/ | ||
| - | |||
| ===== Moje data v TMT_SHARED ===== | ===== Moje data v TMT_SHARED ===== | ||
