[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:joshua [2009/06/02 10:41]
zeman Data.
user:zeman:joshua [2009/06/02 22:03]
zeman Extrakce gramatiky.
Line 20: Line 20:
 <code>setenv JAVA_HOME /opt/jdk1.6 <code>setenv JAVA_HOME /opt/jdk1.6
 setenv SRILM /home/zeman/nastroje/srilm setenv SRILM /home/zeman/nastroje/srilm
-setenv JOSHUA_HOME /net/work/people/zeman/joshua</code>+setenv JOSHUA /net/work/people/zeman/joshua</code>
  
 Stáhnout aktuální verzi Joshuy: Stáhnout aktuální verzi Joshuy:
  
-<code>cd $JOSHUA_HOME+<code>cd $JOSHUA
 svn co https://joshua.svn.sourceforge.net/svnroot/joshua/trunk joshua</code> svn co https://joshua.svn.sourceforge.net/svnroot/joshua/trunk joshua</code>
  
 Přeložit Joshuu: Přeložit Joshuu:
  
-<code>cd $JOSHUA_HOME+<code>cd $JOSHUA
 ant compile</code> ant compile</code>
  
Line 74: Line 74:
 <code>kinit <code>kinit
 ssh lrc-two ssh lrc-two
-cd $JOSHUA_HOME+cd $JOSHUA
 ~bojar/tools/shell/qsubmit ./example/decode_example_srilm.sh ~bojar/tools/shell/qsubmit ./example/decode_example_srilm.sh
 qstat -u '*'</code> qstat -u '*'</code>
- 
  
 ===== Použití ===== ===== Použití =====
Line 86: Line 85:
   * Tokenizovaný a segmentovaný text ve zdrojovém jazyce (en).   * Tokenizovaný a segmentovaný text ve zdrojovém jazyce (en).
   * Tokenizovaný a segmentovaný text v cílovém jazyce (hi).   * Tokenizovaný a segmentovaný text v cílovém jazyce (hi).
-  * Párování vyrobíme Gizou++. Zajímavé ježe Joshua zřejmě, na rozdíl od Mosese, nevyžaduje symetrizované obousměrné párování.+  * Párování vyrobíme [[Giza++|Gizou++]]. 
 + 
 +Správný soubor s párováním vypadá nějak takhle: 
 + 
 +<code>2-0 2-1 2-2 2-3 1-4 2-5 14-8 13-10 8-11 9-11 8-12 8-13 8-14 8-15 5-16 7-16 6-17 4-18 15-19 
 +0-3 7-4 8-5 9-6 10-7 11-8 12-9 13-10 14-11 15-12 16-13 4-15 2-17 3-18 20-19 18-21 21-22 22-23 22-24 22-25 19-26 23-27 
 +0-0 1-1 2-1 3-2 4-4 5-5 7-9 8-16 9-17 10-17 12-17 13-17 14-17 15-17 17-17 18-17 11-18 18-19 18-20 19-21 
 +1-0 4-2 6-4 7-5 7-6 5-7 7-7 6-8 8-9 7-10 8-11 8-12 8-13 11-14 12-17 
 +0-0 1-1 2-1 3-1 7-2 8-3 9-4 6-5 11-6 11-7 12-10 13-11 14-12 15-13 16-14 22-15 23-15 21-16 26-17 17-20 28-22 29-23 27-26 25-28 30-29 31-30 32-30 33-30 33-31 33 
 +-32 34-33</code> 
 + 
 +A takhle pustíme Joshuuaby trénovacích dat extrahoval gramatiku:
  
 +<code>cd $JOSHUA
 +java -cp bin joshua.prefix_tree.ExtractRules \
 +    --source=corpus/train.clean.en \
 +    --target=corpus/train.clean.hi \
 +    --alignments=model/aligned.grow-diag-final-and \
 +    --test=corpus/train.clean.en \
 +    --output=en-hi.grammar.unsorted \
 +    --maxPhraseLength=5 \
 +    --print-rules=false</code>

[ Back to the navigation ] [ Back to the content ]