Both sides previous revision
Previous revision
Next revision
|
Previous revision
Next revision
Both sides next revision
|
user:zeman:tsd2010 [2010/08/28 22:30] zeman filelist.txt musí být uvnitř en.parsed. |
user:zeman:tsd2010 [2010/09/08 09:42] zeman Výsledek. |
Výše uvedená Ondrova cesta vede na ''/a/merkur3/TMP/bojar/wmt10/playground/augmented_corpora/czeng092-ne'' (a další části Czengu) ''/enNaLOT.gz''. Zkopíroval jsem si ten soubor ''enNaLOT.gz'' do svých augmented corpora do ''/net/work/people/zeman/wmt/augmented_corpora/czeng092-ne''. Tam jsem ho začal přelévat do ''en.parsed'' pomocí svého skriptu ''${TMT_ROOT}/applications/reordering/tsd2010/prepare.pl'', který jsem za tím účelem upravil, aby kromě tokenizovaného textu uměl konvertovat i line-oriented tmt. Ve složce ''czeng092-ne/en.parsed'' se také vytváří ''filelist.txt'' se seznamem vzniklých tmt souborů (bude ho potřebovat náš transformační ''make reorder''). Je jich 1262. Až vyzkouším, že s tím lze provádět transformace a překlad, měl bych to udělat i pro ostatní části Czengu. | Výše uvedená Ondrova cesta vede na ''/a/merkur3/TMP/bojar/wmt10/playground/augmented_corpora/czeng092-ne'' (a další části Czengu) ''/enNaLOT.gz''. Zkopíroval jsem si ten soubor ''enNaLOT.gz'' do svých augmented corpora do ''/net/work/people/zeman/wmt/augmented_corpora/czeng092-ne''. Tam jsem ho začal přelévat do ''en.parsed'' pomocí svého skriptu ''${TMT_ROOT}/applications/reordering/tsd2010/prepare.pl'', který jsem za tím účelem upravil, aby kromě tokenizovaného textu uměl konvertovat i line-oriented tmt. Ve složce ''czeng092-ne/en.parsed'' se také vytváří ''filelist.txt'' se seznamem vzniklých tmt souborů (bude ho potřebovat náš transformační ''make reorder''). Je jich 1262. Až vyzkouším, že s tím lze provádět transformace a překlad, měl bych to udělat i pro ostatní části Czengu. |
| |
<code bash>gunzip -c enNaLOT.gz | $TMT_ROOT/applications/reordering/tsd2010/prepare.pl -l -w en.parsed > en.parsed/filelist.txt</code> | Ovšem pozor, v seznamu souborů potřebujeme úplné cesty, proto musíme také cestu k pracovní složce uvést úplnou! |
| |
| <code bash>gunzip -c enNaLOT.gz | $TMT_ROOT/applications/reordering/tsd2010/prepare.pl -l -w /ha/work/people/zeman/wmt/augmented_corpora/czeng092-ne/en.parsed > /ha/work/people/zeman/wmt/augmented_corpora/czeng092-ne/en.parsed/filelist.txt</code> |
| |
===== Výsledky ===== | ===== Výsledky ===== |
| enhi-articles | 0.1141 | 0.1230 | Zatím se členy odstraňují úplně stejně jako u ''encs''. Ve skutečnosti bychom ale pro hindštinu měli asi odstraňovat pouze určité členy. | 31.5.2010 | | | enhi-articles | 0.1141 | 0.1230 | Zatím se členy odstraňují úplně stejně jako u ''encs''. Ve skutečnosti bychom ale pro hindštinu měli asi odstraňovat pouze určité členy. | 31.5.2010 | |
| enhi-reord2008 | 0.1074 | 0.1172 | Stará pravidla pro úpravu slovosledu z roku 2008: sloveso na konec věty a z předložek záložky. Možná se ale nepodařilo pravidla přenést úplně správně, bude to potřeba ještě prozkoumat po částech. | 31.5.2010 | | | enhi-reord2008 | 0.1074 | 0.1172 | Stará pravidla pro úpravu slovosledu z roku 2008: sloveso na konec věty a z předložek záložky. Možná se ale nepodařilo pravidla přenést úplně správně, bude to potřeba ještě prozkoumat po částech. | 31.5.2010 | |
| | enhi-postpositions | 0.1112 | 0.1227 | Z předložek se dělají záložky. | 2.6.2010 | |
| |
| 7.9.2010 ověřuju, že jsem schopen zopakovat výše uvedené květnové výsledky. Opakuju pouze překladovou část, ne předzpracování. Ověřeno: encs. U en-articles byl dost zmatek a žádná předcházející verze experimentu nevypadala důvěryhodně. Nová verze naklonovaná z nového ověřeného encs mi dala dev = 0.0923, test = 0.0893. Nová verze en-subject-regrese mi dala dev = 0.0891, test = 0.0864. Nová verze encs-verbparticle-regrese mi dala dev = 0.0878, test = 0.0850. |
| |
| | encs-complextense | 0.0879 | 0.0863 | Mění "is doing" na "does" (resp. "dos", protože nepoužíváme úplnou morfologickou syntézu). | 8.9.2010 | |
| |
| ===== Náměty ===== |
| |
| * Zrušit anglické složené časy. Např. "is also planning" převést na "plans also"; "am/are planning" převést na "plan". Aby tam nezůstala osamělá pomocná slovesa. Určitě se to týká i jiných časů než přítomného průběhového. Někde mám seznam všech složených slovesných tvarů, které jsem v datech potkal. |
| * Je-li podmětem osobní zájmeno, zařídit, aby se vyskytovalo těsně vedle slovesa, nebo možná aby s ním bylo dokonce slepené. Ve frázích jako "he has never achieved" hrozí, že "he" nebude mít žádný vliv na rod českého příčestí, a navíc tam může zůstat viset české "on", které bychom do české věty normálně nedali. |
| * Zařídit, aby parser dostal text tokenizovaný takovým způsobem, na jaký je zvyklý, a po parsingu aby se text přetokenizoval tak, jak je to vhodné pro překlad. |
| * Vymyslet opravný blok za parserem, který pravidlově vychytá některé jeho chyby. Např. "off" ve spojení "spin - off" nemůže viset na nějakém slovesu o kilometr dříve. |