This is an old revision of the document!
Table of Contents
Danovy poznámky k práci s TectoMT
Tato stránka vznikla inventurou v říjnu 2009 po téměř roce, kdy jsem s TectoMT nepracoval.
Moje knihovny kromě bloků
Toto jsou knihovny ve složce libs/other
.
- rjaz
- translit
- translit/* (brahmi, khmer, urdu)
Moje bloky
- SAnyW_to_SAnyM::Create_bundles_from_lines
- SAnyW_to_SAnyM::Split_long_lines
- SAnyW_to_SAnyM::DZToken
- SAnyW_to_SAnyM::DZSentence
- SAnyW_to_SAnyM::One_paragraph_per_line
- SAnyW_to_SAnyM::Rjaz
- SAnyW_to_SAnyM::Translit
- SEnglishA_to_SEnglishA::Hindi_like_word_order
- Print::Source_text
- Print::Tokenized_text
- Print::Corpus_statistics
- Print::Train_rjaz
- Print::Rjaz
Moje aplikace
- tokenize
- english_to_hindi
- translation/en2hi?
- training/rjaz
Další neuspořádaný kód ve složce personal/zeman
: morphochallenge.
Moje nástroje
Převod formátů:
- emille_to_tmt/emille2tmt.pl
- plaintext_to_tmt/txt2tmt-anylang.pl
- tmt_to_tmt/merge_source_target.xsl
Ostatní:
- block_utils/apply_blocks_on_tmt_files.pl
- cluster_utils/qsub.csh
Moje data v TMT_SHARED
- resource_data/rjaz: trénovací texty a natrénované frekvenční charakteristiky pro rozpoznávání jazyků
- resource_data/emille: jen odkaz na /net/data/emille/cd_content
- generated_data/english_to_hindi: pokusy s párováním angličtiny, hindštiny a urdštiny z Emilla. Asi se může vyhodit, až ověřím, odkud z
TMT_ROOT
se na to případně odkazuje.