[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:tsd2010 [2010/05/31 16:47]
zeman enhi-articles nic nezměnilo.
user:zeman:tsd2010 [2010/08/28 22:19]
zeman Poznámky k práci s Ondřejovými daty.
Line 1: Line 1:
 ====== Pokusy s předzpracováním paralelních textů pro TSD 2010 ====== ====== Pokusy s předzpracováním paralelních textů pro TSD 2010 ======
 +
 +===== Předzpracování =====
 +
 +Zdrojová anglická strana paralelního korpusu se nejdříve prožene značkováním a parsingem v TectoMT. Výsledek se schovává ve složce ''en.parsed'' příslušného augmented korpusu jako ''.tmt'' soubory. Nad nimi se potom provádějí transformace, specifické pro každý pokus. Mám na to v TectoMT aplikaci, akorát pro celý Czeng by trvala strašně dlouho a Ondra už parsing provedl, takže stačí ho vzít a převést. O.:
 +
 +"Mam, ale je tam zvlast anglictina a cestina (a zadny alignment). Nebude ale velky problem to spojit.
 +
 +/home/bojar/diplomka/granty/emplus/wmt10/playground/augmented_corpora/{czeng092-*,emea2}/{cs,en}NaLOT.gz
 +
 +Jen upozornuju, ze to nejsou tmt soubory, ale lot, line-oriented-tmt, co radek, to bundle. Prevod do tmt viz tools/format_convertors/line-oriented-tmt, ale *opatrne*. Viz jak 100 bundlu tmt soubory neunesou (resp. nikdo je pak v rozumnem case nenacte.)"
 +
 +Výše uvedená Ondrova cesta vede na ''/a/merkur3/TMP/bojar/wmt10/playground/augmented_corpora/czeng092-ne'' (a další části Czengu) ''/enNaLOT.gz''. Zkopíroval jsem si ten soubor ''enNaLOT.gz'' do svých augmented corpora do ''/net/work/people/zeman/wmt/augmented_corpora/czeng092-ne''. Tam jsem ho začal přelévat do ''en.parsed'' pomocí svého skriptu ''${TMT_ROOT}/applications/reordering/tsd2010/prepare.pl'', který jsem za tím účelem upravil, aby kromě tokenizovaného textu uměl konvertovat i line-oriented tmt. Ve složce ''czeng092-ne'' se také vytváří ''filelist.txt'' se seznamem vzniklých tmt souborů. Je jich 1262. Až vyzkouším, že s tím lze provádět transformace a překlad, měl bych to udělat i pro ostatní části Czengu.
 +
 +<code bash>gunzip -c enNaLOT.gz | $TMT_ROOT/applications/reordering/tsd2010/prepare.pl -l -w en.parsed > filelist.txt</code>
  
 ===== Výsledky ===== ===== Výsledky =====
Line 30: Line 44:
 | encs | 0.0916 | 0.0891 | | 31.5.2010 | | encs | 0.0916 | 0.0891 | | 31.5.2010 |
 | encs-articles | 0.0921 | 0.0898 | Z anglické strany vypuštěny určité i neurčité členy. Statisticky nevýznamné zlepšení. | 31.5.2010 | | encs-articles | 0.0921 | 0.0898 | Z anglické strany vypuštěny určité i neurčité členy. Statisticky nevýznamné zlepšení. | 31.5.2010 |
 +| encs-subject | 0.0891 | 0.0864 | Ke kořenovému slovu anglického podmětu připojeno (do jednoho tokenu) ''/Sb''. U starších experimentů jsem tohle označoval jako ''subject1'', ale tehdejší ''subject'' bez indexu už je stejně zapomenut. | 31.5.2010 |
 +| encs-articles-subject | 0.0859 | 0.0851 | Kombinace transformací ''articles'' a ''subject''. | 31.5.2010 |
 +| encs-verbparticle | 0.0880 | 0.0864 | Viz výše. | 30.5.2010 |
 | enhi | 0.1116 | 0.1230 | | 31.5.2010 | | enhi | 0.1116 | 0.1230 | | 31.5.2010 |
 | enhi-articles | 0.1141 | 0.1230 | Zatím se členy odstraňují úplně stejně jako u ''encs''. Ve skutečnosti bychom ale pro hindštinu měli asi odstraňovat pouze určité členy. | 31.5.2010 | | enhi-articles | 0.1141 | 0.1230 | Zatím se členy odstraňují úplně stejně jako u ''encs''. Ve skutečnosti bychom ale pro hindštinu měli asi odstraňovat pouze určité členy. | 31.5.2010 |
 +| enhi-reord2008 | 0.1074 | 0.1172 | Stará pravidla pro úpravu slovosledu z roku 2008: sloveso na konec věty a z předložek záložky. Možná se ale nepodařilo pravidla přenést úplně správně, bude to potřeba ještě prozkoumat po částech. | 31.5.2010 |
  

[ Back to the navigation ] [ Back to the content ]