Differences
This shows you the differences between two versions of the page.
Both sides previous revision
Previous revision
Next revision
|
Previous revision
Next revision
Both sides next revision
|
user:zeman:tsd2010 [2010/06/01 11:59] zeman encs-verbparticle do tabulky. |
user:zeman:tsd2010 [2010/08/28 22:19] zeman Poznámky k práci s Ondřejovými daty. |
====== Pokusy s předzpracováním paralelních textů pro TSD 2010 ====== | ====== Pokusy s předzpracováním paralelních textů pro TSD 2010 ====== |
| |
| ===== Předzpracování ===== |
| |
| Zdrojová anglická strana paralelního korpusu se nejdříve prožene značkováním a parsingem v TectoMT. Výsledek se schovává ve složce ''en.parsed'' příslušného augmented korpusu jako ''.tmt'' soubory. Nad nimi se potom provádějí transformace, specifické pro každý pokus. Mám na to v TectoMT aplikaci, akorát pro celý Czeng by trvala strašně dlouho a Ondra už parsing provedl, takže stačí ho vzít a převést. O.: |
| |
| "Mam, ale je tam zvlast anglictina a cestina (a zadny alignment). Nebude ale velky problem to spojit. |
| |
| /home/bojar/diplomka/granty/emplus/wmt10/playground/augmented_corpora/{czeng092-*,emea2}/{cs,en}NaLOT.gz |
| |
| Jen upozornuju, ze to nejsou tmt soubory, ale lot, line-oriented-tmt, co radek, to bundle. Prevod do tmt viz tools/format_convertors/line-oriented-tmt, ale *opatrne*. Viz jak 100 bundlu tmt soubory neunesou (resp. nikdo je pak v rozumnem case nenacte.)" |
| |
| Výše uvedená Ondrova cesta vede na ''/a/merkur3/TMP/bojar/wmt10/playground/augmented_corpora/czeng092-ne'' (a další části Czengu) ''/enNaLOT.gz''. Zkopíroval jsem si ten soubor ''enNaLOT.gz'' do svých augmented corpora do ''/net/work/people/zeman/wmt/augmented_corpora/czeng092-ne''. Tam jsem ho začal přelévat do ''en.parsed'' pomocí svého skriptu ''${TMT_ROOT}/applications/reordering/tsd2010/prepare.pl'', který jsem za tím účelem upravil, aby kromě tokenizovaného textu uměl konvertovat i line-oriented tmt. Ve složce ''czeng092-ne'' se také vytváří ''filelist.txt'' se seznamem vzniklých tmt souborů. Je jich 1262. Až vyzkouším, že s tím lze provádět transformace a překlad, měl bych to udělat i pro ostatní části Czengu. |
| |
| <code bash>gunzip -c enNaLOT.gz | $TMT_ROOT/applications/reordering/tsd2010/prepare.pl -l -w en.parsed > filelist.txt</code> |
| |
===== Výsledky ===== | ===== Výsledky ===== |