Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision | Last revision Both sides next revision | ||
user:zeman:tectomt [2009/10/09 13:16] zeman Upřesnění cest k aplikacím. |
user:zeman:tectomt [2009/10/09 13:33] zeman Poznámky k tokenizaci. |
||
---|---|---|---|
Line 28: | Line 28: | ||
* Print:: | * Print:: | ||
* Print::Rjaz | * Print::Rjaz | ||
- | |||
- | |||
- | |||
===== Moje aplikace ===== | ===== Moje aplikace ===== | ||
Line 39: | Line 36: | ||
Další neuspořádaný kód ve složce '' | Další neuspořádaný kód ve složce '' | ||
+ | |||
+ | ==== Tokenize ==== | ||
+ | |||
+ | Původně šlo o pokusy s& | ||
+ | |||
+ | * Je to moc souborů (přes 20000) a jejich zpracování trvá neúnosně dlouho. Mám podezření, | ||
+ | * Některé soubory obsahují příliš dlouhé odstavce (přes 20000 tokenů). Tokenizace a segmentace uvnitř TectoMT znamená vkládání složitých struktur pro uzly, stromy a bundly, což jsou na takovýchto datech příliš drahé operace. | ||
+ | |||
+ | Poučení: TectoMT se bohužel nedá efektivně použít už od nejnižší úrovně zpracování. Je lepší zařídit si tokenizaci a segmentaci vět na prostém textu a do TectoMT převést teprve výsledek. | ||
===== Moje nástroje ===== | ===== Moje nástroje ===== | ||
Line 52: | Line 58: | ||
* block_utils/ | * block_utils/ | ||
* cluster_utils/ | * cluster_utils/ | ||
- | |||
===== Moje data v TMT_SHARED ===== | ===== Moje data v TMT_SHARED ===== |