Differences

This shows you the differences between two versions of the page.

--- user:zeman:joshua [2009/06/02 10:41]
zeman Data.
+++ user:zeman:joshua [2009/06/03 09:46]
zeman Pozor na --print-rules=false.
@@ Line 20: / Line 20: @@
 <code>setenv JAVA_HOME /opt/jdk1.6
 setenv SRILM /home/zeman/nastroje/srilm
-setenv JOSHUA_HOME /net/work/people/zeman/joshua</code>
+setenv JOSHUA /net/work/people/zeman/joshua</code>
 Stáhnout aktuální verzi Joshuy:
-<code>cd $JOSHUA_HOME
+<code>cd $JOSHUA
 svn co https://joshua.svn.sourceforge.net/svnroot/joshua/trunk joshua</code>
 Přeložit Joshuu:
-<code>cd $JOSHUA_HOME
+<code>cd $JOSHUA
 ant compile</code>
@@ Line 74: / Line 74: @@
 <code>kinit
 ssh lrc-two
-cd $JOSHUA_HOME
+cd $JOSHUA
 ~bojar/tools/shell/qsubmit ./example/decode_example_srilm.sh
 qstat -u '*'</code>
 ===== Použití =====
@@ Line 86: / Line 85: @@
   * Tokenizovaný a segmentovaný text ve zdrojovém jazyce (en).
   * Tokenizovaný a segmentovaný text v cílovém jazyce (hi).
-  * Párování vyrobíme Gizou++. Zajímavé je, že Joshua zřejmě, na rozdíl od Mosese, nevyžaduje symetrizované obousměrné párování.
+  * Párování vyrobíme [[Giza++|Gizou++]].
+Správný soubor s párováním vypadá nějak takhle:
+<code>2-0 2-1 2-2 2-3 1-4 2-5 14-8 13-10 8-11 9-11 8-12 8-13 8-14 8-15 5-16 7-16 6-17 4-18 15-19
+-3 7-4 8-5 9-6 10-7 11-8 12-9 13-10 14-11 15-12 16-13 4-15 2-17 3-18 20-19 18-21 21-22 22-23 22-24 22-25 19-26 23-27
+-0 1-1 2-1 3-2 4-4 5-5 7-9 8-16 9-17 10-17 12-17 13-17 14-17 15-17 17-17 18-17 11-18 18-19 18-20 19-21
+-0 4-2 6-4 7-5 7-6 5-7 7-7 6-8 8-9 7-10 8-11 8-12 8-13 11-14 12-17
+-0 1-1 2-1 3-1 7-2 8-3 9-4 6-5 11-6 11-7 12-10 13-11 14-12 15-13 16-14 22-15 23-15 21-16 26-17 17-20 28-22 29-23 27-26 25-28 30-29 31-30 32-30 33-30 33-31 33
+-32 34-33</code>
+A takhle pustíme Joshuu, aby z trénovacích dat extrahoval gramatiku:
+<code>cd $JOSHUA
+java -cp bin joshua.prefix_tree.ExtractRules \
+    --source=corpus/train.clean.en \
+    --target=corpus/train.clean.hi \
+    --alignments=model/aligned.grow-diag-final-and \
+    --test=corpus/train.clean.en \
+    --output=en-hi.grammar.unsorted \
+    --maxPhraseLength=5 \
+    --print-rules=false</code>
+V příkladu v INSTALL.txt měli navíc ještě volbu ''--print-rules=false'', nevím proč. Výsledná gramatika totiž byla prázdná, a když jsem tuto volbu odstranil, gramatika se vygenerovala.
+Pozor, je poměrně snadné vyčerpat paměť. Tomu se dá čelit jednak tím, že se přesuneme na stroj, který má více paměti, jednak že zvolíme postup, který je složitější, ale k paměti šetrnější.
+Binarizovat zdrojovou část korpusu.
+<code>java -cp bin joshua.corpus.suffix_array.SuffixArray $WORK/corpus/train.clean.en $WORK/model/vocab.en.bin $WORK/model/corpus.en.bin $WORK/model/suffixes.en.bin</code>

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences