[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:tsd2010 [2010/08/28 22:30]
zeman filelist.txt musí být uvnitř en.parsed.
user:zeman:tsd2010 [2010/08/28 22:34]
zeman Potřebujeme úplné cesty.
Line 13: Line 13:
 Výše uvedená Ondrova cesta vede na ''/a/merkur3/TMP/bojar/wmt10/playground/augmented_corpora/czeng092-ne'' (a další části Czengu) ''/enNaLOT.gz''. Zkopíroval jsem si ten soubor ''enNaLOT.gz'' do svých augmented corpora do ''/net/work/people/zeman/wmt/augmented_corpora/czeng092-ne''. Tam jsem ho začal přelévat do ''en.parsed'' pomocí svého skriptu ''${TMT_ROOT}/applications/reordering/tsd2010/prepare.pl'', který jsem za tím účelem upravil, aby kromě tokenizovaného textu uměl konvertovat i line-oriented tmt. Ve složce ''czeng092-ne/en.parsed'' se také vytváří ''filelist.txt'' se seznamem vzniklých tmt souborů (bude ho potřebovat náš transformační ''make reorder''). Je jich 1262. Až vyzkouším, že s tím lze provádět transformace a překlad, měl bych to udělat i pro ostatní části Czengu. Výše uvedená Ondrova cesta vede na ''/a/merkur3/TMP/bojar/wmt10/playground/augmented_corpora/czeng092-ne'' (a další části Czengu) ''/enNaLOT.gz''. Zkopíroval jsem si ten soubor ''enNaLOT.gz'' do svých augmented corpora do ''/net/work/people/zeman/wmt/augmented_corpora/czeng092-ne''. Tam jsem ho začal přelévat do ''en.parsed'' pomocí svého skriptu ''${TMT_ROOT}/applications/reordering/tsd2010/prepare.pl'', který jsem za tím účelem upravil, aby kromě tokenizovaného textu uměl konvertovat i line-oriented tmt. Ve složce ''czeng092-ne/en.parsed'' se také vytváří ''filelist.txt'' se seznamem vzniklých tmt souborů (bude ho potřebovat náš transformační ''make reorder''). Je jich 1262. Až vyzkouším, že s tím lze provádět transformace a překlad, měl bych to udělat i pro ostatní části Czengu.
  
-<code bash>gunzip -c enNaLOT.gz | $TMT_ROOT/applications/reordering/tsd2010/prepare.pl -l -w en.parsed > en.parsed/filelist.txt</code>+Ovšem pozor, v&nbsp;seznamu souborů potřebujeme úplné cesty, proto musíme také cestu k&nbsp;pracovní složce uvést úplnou! 
 + 
 +<code bash>gunzip -c enNaLOT.gz | $TMT_ROOT/applications/reordering/tsd2010/prepare.pl -l -w /ha/work/people/zeman/wmt/augmented_corpora/czeng092-ne/en.parsed > /ha/work/people/zeman/wmt/augmented_corpora/czeng092-ne/en.parsed/filelist.txt</code>
  
 ===== Výsledky ===== ===== Výsledky =====

[ Back to the navigation ] [ Back to the content ]